基于深度自学的图像质量排名|亚博取款速度

本文摘要:在自然语言处理领域,我们将深度自学技术应用于文本分析、语义赋予和搜索引擎的排序模型;针对上述挑战,传统的OCR解决方案不存在以下严重缺点:通过版面分析(二值化、连通域分析)分解文本行,拒绝正面背景(如文档图像、车牌等)规律性强、可分离性强的版面结构,无法处理正面背景简单的随意文本(如场景文本、菜单、广告文本等)。

图片

出版社:本文发表于微信微信官方账号美团点评技术团队,经许可发表。作者是:美团平台智能技术中心和葡萄酒旅游商务集团负责人朱雯;美国使团李彪评论美国使团平台和葡萄酒旅游业务组NLP技术负责人;美团点评平台和酒旅商团形象科技负责人小明。(微信官方账号:)|前言近年来,深入自学在语音、图像、自然语言处理等领域取得了显著成效。

并已成为最引人注目的技术热点之一。近两年来,美国使团对深度自学的一些探索进行了评论。在自然语言处理领域,我们将深度自学技术应用于文本分析、语义赋予和搜索引擎的排序模型;在计算机视觉领域,我们将其应用于字符识别、目标检测、图像分类、图像质量排序等。下面,我们将以语义赋予、图像质量排序和文本识别三种应该使用的场景为例,详细说明深度自学习技术的经验和方法论及其在美团点评中的应用。

基于深度自学的语义给定技术在信息检索和搜索引擎中占有最重要的地位,在结果解析和精确排序环节中起着最重要的作用。在传统意义上,语义给予技术更注重文本层面的语义对应程度,所以我们不得不称之为语言层面的语义给予;在美团点评等典型O2O应用场景中,我们的结果表明,它不仅与用户所传达的语言层面的语义密切相关,还与用户意图和用户状态密切相关。用户意图就是用户在这里做什么。

比如一个用户在百度上搜索“关内关外”,他的意图可能是想告诉关内关外代表的地理范围。“关内”和“关外”作为两个词进行搜索,在美团上搜索“关内关外”时,用户在寻找关内关外的酒店,“关内关外”作为一个词。

先说用户状态。如果北京的一个用户和武汉的另一个用户在百度或者淘宝上搜索任何词条,结果可能会太糟糕;但在美团这样涉及地理位置强的场景下,几乎不会有什么不同。

比如我在武汉搜索“黄鹤楼”,用户可能在找景点门票,而我在北京搜索“黄鹤楼”,用户可能在找酒店。如何将语言层信息与用户的意图和状态结合起来给出语义?我们的想法是在短文本之外引入O2O业务场景涉及的一些特性,并将其纳入设计深度自学的框架中给出语义。通过页面/订单数据提示语义给定模型的优化方向,最后应用训练好的页面关联模型搜索相关业务。右边的图片是ClickNet,一个为美团评论场景设计的页面相似性框架。

它是一个相对轻量级的模型,兼顾了效果和性能,可以很好地应用于在线应用。表示层分别用语义和业务特征来响应查询和业务名称,其中语义特征是核心。通过DNN/CNN/RNN/LSTM/GRU方法,以及与业务相关的特征,如用户或业务相关的信息,如用户与业务的距离、业务评价等,获得短文本的整体向量响应。

都没有介绍,最后合并一起上传。自学习层通过多层仅连接和非线性变化后预测给定分数,并根据分数和标签调整网络,自学习具有查询和商家名称的页面的给定关系。为了在算法框架内训练出一个好的语义模型,还必须根据场景对模型进行优化。首先,我们从训练语料中做了大量的优化,比如考虑样本的不平衡性,样本最重要的程度,倾向性偏差等等。

其次,在优化模型参数时,考虑了不同的优化算法、网络规模层次、超强参数调整等问题。经过模型训练和优化,我们的语义给定模型已经上线发布和ra
摘要深度自学习应用于语义指派时,需要为业务场景设计合适的算法框架。

此外,虽然深度自学习算法增加了特征工程工作,但它在模型调整中的可玩性不会降低。因此,可以从框架设计、业务语料库处理和模型参数调优三个方面来构建一个效果和性能都非常优秀的模型。

|基于深度自学的图像质量排名国内外各大互联网公司(如腾讯、阿里、Yelp)的在线广告业务,都在关注什么样的图像可以用更多的页面展示出来。美团的评论里,商家的第一张图片是商家或者运营商手动登录的。如何才能自由选择第一张图片,拥有更好的用户?图像质量排名算法的目标是自动自由选择质量较好的第一幅图像,从而拥有更多的用户页面。传统的图像质量排名方法主要是从审美的角度来评价质量,通过色彩统计、主题制作、线条等来分析图片的美感。

但是在实际业务场景中,用户对图片质量的判断是主观的,不能构成统一的评价标准。比如:的部分用户更容易受到清晰度或分辨率的影响;有些用户更容易受到颜色或线条的影响;一些用户更喜欢有视觉冲击力的内容,而不是简单的环境地图。因此,我们采用深度自学的方法,找出图片的哪些属性不会影响用户的辨别,以及如何有效融合这些属性来评价图片。我们使用AlexNet提取图片的高级语义旁白,自主学习美、记忆、优雅、类别等高级特征,并对人工设计的低级特征(如颜色、锐度、对比度、边角)进行补充。

获得这些特征后,训练一个浅层神经网络对整个图像进行评分。这个框架的一个特点(如图2右图所示)是在深度自学和传统特色上领先,既引入了高层语义,又保持了低层的规范叙述,既有全局特色,也有局部特色。

每个维度的图像属性的自学必须有大量的标签数据支持,但是几乎手工标注的成本很高。所以我们结合美团评论的图像源和POI标签系统。

关于更多度属性的自学,我们选取美团DealBlogger中点击率低的图片(多为摄影师通过单反相机拍摄)作为正面例子,UGCBlogger中点击率低的图片(多为低端手机拍摄)作为反面例子。关于类别属性的自学,我们以美团一级类别和稀有二级类别作为图片标签。

基于上述质量排名模型,我们选择合适的高质量的第一张图片用于广告兴趣点显示,旨在拥有更多的用户页面和提高业务指标。图3显示了基于质量排名的第一张图片的替代结果。|基于深度自学的OCR为了提升用户体验,O2O产品OCR技术的市场需求已经渗透到订购、支付、仓储、用户评价等环节。

OCR在美团的评论业务中扮演两个主要角色。一方面是辅助加载,比如在移动支付环节,通过银行卡号的照片识别,建立自动绑定卡,另一方面是辅助BD加载菜单信息。

另一方面是审核,比如在商家的资质审核中,对商家上传的身份证、营业执照、餐饮执照等证件照片进行信息提取和验证,以保证商家的合法性,比如机器过滤商家订单、用户评价链接生成的包含禁止性文字的图片等。美团的OCR场景相对于传统的OCR场景(打印、扫描文档),主要是对手机拍摄的照片进行文字信息的提取和识别。考虑到线下用户的多样性,主要面临以下挑战:光学简单性:噪音、模糊、光线变化、压力;文字简单:字体、大小、颜色、磨损、笔画宽度不同,方向给定;简单背景:布局缺陷,背景障碍。

针对上述挑战,传统的OCR解决方案不存在以下严重缺点:通过版面分析(二值化、连通域分析)分解文本行,拒绝正面背景(如文档图像、车牌等)规律性强、可分离性强的版面结构,无法处理正面背景简单的随意文本(如场景文本、菜单、广告文本等)。)。通过人工设计边缘方向特征(如HOG)来训练字符识别模型,当字体发生变化、模糊或背景块出现时,这种单一特征的泛化能力迅速上升。

过度依赖字符重复的结果,在字符变形、粘连和噪声阻碍的情况下,重复的误差传播尤其明显。鉴于传统光学字符识别解决方案的严重缺点,我们尝试基于深度自学的光学字符识别。1.基于美国有线电视新闻网和FCN的文本定位。

首先,我们可以根据是否有先验信息,将布局分为可控场景(如身份证、营业执照、银行卡)和不可控场景(如菜单、门禁图)。对于可控场景,我们将文本位置切换到特定关键词目标的检测。主要使用fast R-CNN进行检测,如下图右侧所示。为了保证再入板的定位精度,提高运算速度,我们对原有框架和训练模式进行了:微调。

考虑到关键词目标的类内变化有限,我们裁剪了ZF模型的网络结构,将卷积从5层增加到3层。在训练过程中,提升基于样本的符合亲和阈值,并根据业务市场需求兼容RPN层Anchor的长宽比。对于不可控场景,由于给定的文字方向和笔画宽度变化,目标检测中返回板的定位粒度过大。我们使用语义拆分中常用的FCN,在像素级展开文本/背景标签,如下图右图所示。

为了同时保证定位的准确性和语义的清晰性,我们不仅在最后一层进行反卷积,还融合了深层和浅层的反卷积结果。2.基于序列自学习框架的文本识别为了有效控制字符重复和识别后处理的错误传播效应,构建端到端文本识别的可训练性,我们使用了下图中的序列自学习框架。该框架分为三层:卷积层、迭代层和翻译层。其中卷积层支持特征,迭代层不仅学习特征序列中字符特征的序列关系,还学习字符的序列关系,并转化为层来构造时间序列分类结果的解码。

由于序列自学习框架中训练样本的数量和产生具有很高的拒绝率,所以我们采用从真实样本中准备样本的方式。真实样本大部分来自美团的评论业务来源(如菜单、身份证、营业执照),而在准备样本时考虑了字体、重音、歧义、噪音、背景等因素。

基于上述序列自学习框架和训练数据,各种场景下的文本识别性能有了很大的提高,如下图右图所示。|总结本文主要以深度自学在自然语言处理和图像处理中的应用为例,但深度自学在美团评论中的价值并不仅限于此。以后我们会在各种场景中学习,比如智能交互、仓库调度、智能操作等。为美团评论产品的智能化之路做出贡献。

经许可,禁止发表有版权的文章。以下是发布通知。

本文关键词:亚博ag提现快速的,场景,属性,信息,框架,用户

本文来源:亚博ag提现快速的-www.jestpoint.com

此条目发表在互联网分类目录。将固定链接加入收藏夹。

评论已关闭。