重拳冲击互联网背法没有美计片 OCR手艺智能“抗
来源:未知    点击:   发布时间:2018-05-02 16:42

  随着互联网行业的蓬勃发展,我国已成为全球第一大互联网市场。亿万用户享受着互联网带来的便捷服务的同时,也承担着被黑色产业链生产的黄赌毒、制假贩假和地下信息带来的风险。近年来,因互联网违法不良信息诱发的犯罪,造成公民财产和精神损失的案件频发。其中,不良图片信息因其隐蔽性强、形式多样,危害性较之普通文本信息更大,而针对此类图片信息的监控更复杂,耗费人力物力成本也更高。

  日前,360搜索利用基于深度学习的OCR技术,在360图片搜索产品中进行落地应用。OCR技术能对互联网上各色泛滥的违法不良图片进行识别和监测,屏蔽和过滤掉违法不良信息,从源头上对互联网黑色产业发布的违法信息予以强有力的打击,用户在360搜索中搜索相关图片时,能免受违法不良图片信息的侵害。

重拳冲击互联网背法没有美计片OCR手艺智能“抗乌

  

  作为国内第二大搜索引擎,360搜索服务超过4亿用户,日均8亿搜索请求。图片搜索是360搜索产品矩阵中的重要一环,收录超过500亿高清美图,为亿万用户提供壁纸、素材、摄影等高品质搜图体验。360图片搜索在保障用户享用高品质图库的同时,发力安全端,有效隔绝违法不良图片广告和信息。目前,360图片搜索运用这一OCR技术日均过滤超过400万违规图片,对借助图片文本发布违法不良信息的黑色产业予以了最强有力的打击。

  

  与传统文本识别不同,图片识别的技术难度要更大,背后牵涉的技术细节更为复杂。OCR,全称Optical Character Recognition,即光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,用字符识别方法将形状翻译成计算机文字的过程,简而言之就是把图片上的文字识别出来。从技术原理即可看出,OCR并非一个技术新名词,熟练使用扫描仪进行文本处理的人都不会陌生。但在人工智能时代,OCR技术迎来新的性跨越,由传统的识别方式,向基于深度学习下的高准确率识别迈进。

  传统的OCR识别步骤较为复杂,需要对图片文本进行去噪预处理、图像二值化、版式分析、倾斜校正、字符分割、特征提取和字符识别等多重处理,任何步骤出错都会影响最终的识别性能,并且对于复杂背景下的文字,比如广告图片等,识别效果差强人意。

  此次360搜索实验室基于最新的机器学习算法,结合360图片搜索海量的图像数据,从文本的检测(Text Detection)到识别(Text Recognition),采用了国际流行的CNN+RNN结构模型和Attention机制等先进算法技术,针对图片的字识别率提高到90%以上,极大程度上提高了针对不良信息内容的处理效率,实现了对于海量图片信息的快速筛选和精准过滤。

  当前,人工智能应用于互联网安全领域已成大势所趋, OCR技术正在政企机构官网防数据泄露、网站违规内容监控等方面施展拳脚。除此之外,在自动驾驶自动识别道路标识、可穿戴设备中信息交互等领域,OCR技术亦大有可为。未来,360搜索将持续深耕人工智能技术创新,不断拓展图像和文本识别领域更多应用空间,为用户带来更多便捷体验和安全保障。

  来源:XXX(非中文科技资讯)的作品均转载自媒体,转载请尊重版权保留出处,一切法律责任自负。

  中文科技资讯倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至我们将及时沟通与处理。

  4月18日消息,据国外媒体报道,亿万富翁投资者卡尔·伊坎收购了云计算平台VMware少量股份。

  4月10日消息,据美国财经网站CNBC报道,谷歌正与美国医学协会合作,计划让初创企业提出“促进健康监测设备数据共享的最佳新思路”。

  国内无人驾驶领域又迎来一个巨头——阿里巴巴。日前,阿里巴巴对外确认其团队正在研发L4及以上自动驾驶技术,已有车辆进行了常态化路测,并具备了在开放路段测试的能力。

  4月18日消息,据国外媒体报道,亿万富翁投资者卡尔·伊坎收购了云计算平台VMware少量股份。

  4月17日消息,据国外媒体报道,微软市值周一超越谷歌母公司Alphabet,成为全球仅次于苹果的第二大市值公司。