您的位置:闷文网 > 生活 > >正文

​互联网舆情知识(爱奇艺场景下NLP应用与文本舆情分析)

摘要互联网舆情知识(爱奇艺场景下NLP应用与文本舆情分析) 摘要: 自然语言处理(Natural Language Processing,简称NLP)是人工智能的一个重要分支,它研究能实现人与机器之间用自然语言进...

互联网舆情知识(爱奇艺场景下NLP应用与文本舆情分析)

摘要:自然语言处理(Natural Language Processing,简称NLP)是人工智能的一个重要分支,它研究能实现人与机器之间用自然语言进行有效通信的各种理论和方法,即让机器“懂”人类的语言。

爱奇艺是一家以科技创新为驱动的娱乐公司,致力于为用户提供丰富、高清、流畅、和智能化的专业视频体验。

在爱奇艺的视频场景下,自然语言处理的使命即是让机器更好地理解娱乐相关的视频/图文内容,从而为用户提供智能化的服务。

本文简介爱奇艺自然语言处理团队专注在哪些nlp课题以及取得的进展,并举例说明我们的使用场景。

一.引言

NLP涉及的面非常广,包括语音识别 / 合成、信息检索,信息抽取,问答系统,机器翻译、对话系统等。

在爱奇艺,自然语言处理团队专注于以下7个方向:

1.词法分析和知识图谱

2.打标签(Tag Recommendation)

3.查询理解

4.热门事件发现和聚合

图1:词法分析平台

图1显示了现阶段的词法分析功能:

分词、词性标注、词权重、新词发现、实体识别/链接功能等,采用的技术主要包括CRF、L2R、CNN、CNN CRF、LSTM CRF。

其中,实体识别是词法分析中的重点也是难点。除了通用的人名、地名、组织机构名的识别,我们还特别关注娱乐领域的影视剧名、游戏名、文学作品名、游戏解说名等的识别。

上述的娱乐领域的实体识别挑战较大,主要包括:

1. 目前工业界和学术界还鲜有相关工作的介绍。

2. 实体本身的规律性弱。任何一个词都有可能是实体的一部分,例如“杀破狼”、“西游记之孙悟空三打白骨精”等;

3. 实体词与实体词之间、以及实体词与普通词之间的歧义性大,如电影“十二生肖”、“功夫”、“长城”、电视剧“解密”,既是普通名词也是实体词,“非诚勿扰”即可能是电影,也可能是综艺或普通词。

4. 缺乏训练语料

我们首先在训练语料的准备上做了大量的工作,包括:

(1)使用启发式规则自动构建了100万句弱标注的视频语料。

(2)人工方式标注了几万句的精准标注的视频语料。

在实体词典的构建上,使用数据挖掘技术实时地从全网挖掘影视剧名/角色名/艺人名/游戏名等领域词典。

算法上不仅在传统的CRF模型上做了很多的尝试,也在深度学习方法进行了一些探索。CRF vs. CNN vs. LSTM等对比实验表明,如图2所示的双层CNN CRF模型获得较优的性能。在2个不同的测试集上,我们的模型对剧名识别的f-score分别是82.1%和72.6%。

互联网舆情知识(爱奇艺场景下NLP应用与文本舆情分析)(1)

实体识别/链接服务除了作为底层的nlp基础服务应用于各业务线,我们也开发了多个直接应用业务。

1.通过实体识别进行泡泡圈子的内容分发:即从图文/视频/图集中的文本中准确地识别明星、剧名;对识别出的明星、剧名按照和内容的匹配度进行重要性打分、并根据重要性将内容自动分发到对应的明星圈子和影视剧圈子。

2.通过实体识别将feed流中的视频和电影票(图3左)、游戏(图3中)、电商(图3右)、漫画和文学等垂线业务进行关联。可在不损伤用户体验的情况下,提高对垂直业务线的导流,进而实现一键购买电影票、下载游戏和下单电商等。

互联网舆情知识(爱奇艺场景下NLP应用与文本舆情分析)(2)

图3:基于实体识别/链接的feed流视频与垂线业务的关联

在视频领域知识图谱,我们可以分析出视频与视频、视频与人、人与人,人与视频的关系。再结合精确的语义分析、实现了用户查询的精确回答(图4)。未来我们还要继续挖掘游戏、文学等更多垂直领域的实体属性和实体关系。

互联网舆情知识(爱奇艺场景下NLP应用与文本舆情分析)(3)

互联网舆情知识(爱奇艺场景下NLP应用与文本舆情分析)(4)

图4:基于知识图谱的问答系统

三. 打标签

标签是从对内容(视频、图文、或图集)的描述(标题、摘要、或正文)中提取可表示内容的一种元数据(关键词或术语)、有助于更好的个性化内容推荐、更高效的内容编辑。

标签可以是一个封闭的预定义分类体系(我们称之为类型标签),也可以是从内容中提取的开放的关键词集合(内容标签)。

标题 范爷辣眼睛新街拍, 难道减肥真的可以无止尽吗?

内容标签 范爷 (http://www.iqiyi.com/lib/s_200044305.html)街拍 减肥

类型标签娱乐 明星 内地

表1:视频描述(标题)及其类型和内容标签

类型标签采用的是基于SVM的分类算法,特征包括字的n-gram、词的n-gram、主题语言模型特征、词典特征等。

传统的内容标签抽取方法分二步走:

1.基于启发式规则的候选标签生成。

2.基于无监督(TextRank,ExpandRank)或有监督(Maui,CeKE)算法的候选打分,并输出概率最大的作为系统标签。

按我们经验和对业务的了解,我们将基于打分或者分类的内容标签任务转化为一个序列标注任务,并采用CRF模型。该算法具有:

01.可以抽取任意长度的词组作为标签

02.不再需要单独的候选抽取模块

03.可以获得最佳的性能

目前、标签服务已经应用于视频推荐、爱奇艺头条、泡泡、视频编辑等业务等。

四.查询理解

查询理解包括个性化的默认搜索词查询补全查询纠错查询分类等。

其中个性化的默认搜索词是在用户发生搜索行为前,通过用户在爱奇艺的历史行为猜测用户可能感兴趣的query。其本质是一个推荐系统,方法是计算用户画像和query的相似度。优秀的个性化默认搜索词可以增加用户黏性,提高用户体验,进一步地引导用户行为。

查询补全是在用户发生搜索行为的过程中,通过用户不完整的输入(我们称之为token)与query的匹配度,query的点击量、专辑与否、freshness等提示用户一些可能感兴趣的query,提高搜索效率。

五.语音助手

我们的语音助手已落地在爱奇艺VR一体机和爱奇艺APP上。通过VR语音助手,可以实现和VR一体机的虚拟女友Vivi进行40多种交互,包括视频播放/搜索、天气查询、和Vivi的互动、VR设备设定(亮度调高、音量调低)等。

在APP里,语音助手可实现便捷地购买VIP会员(我要买爱奇艺VIP会员),下载游戏(我想下载爱奇艺斗地主游戏)、直接观看电视剧的某一集或电影等。

互联网舆情知识(爱奇艺场景下NLP应用与文本舆情分析)(5)

图5:APP上的语音助手

语音助手简单来说,即是把用户说的话(utterance),转换为结构化的语义表示,从而执行相应的动作(action),分为如图6所示的3个大模块:语音识别、语音识别纠错、语义解释。

语义解析模块又进一步分为意图分类(intent classification)和要素抽取(slot filling)。

需要说明的是,第二节介绍的词法分析,特别是影视剧名识别,和第四节介绍的基于爱奇艺全网搜索的查询纠错让我们的语音助手鲁棒性,特别是在影视娱乐、游戏领域得到较大的优化。

互联网舆情知识(爱奇艺场景下NLP应用与文本舆情分析)(6)

图6:语音助手框架图

六.舆情分析

舆情分析可直观反映观众对剧和艺人的关注焦点和态度,为版权方和自制剧的内容运营、内容营销策略制定、营销趋势把握提供参考

我们使用自然语言处理中的句法分析技术,从UGC内容(用户评论、弹幕、泡泡圈子)中抽取评价对象、评价词以及情感色彩,从而形成对用户观影评论、社交互动的多维度结构化舆情分析。

图7是对电影“战狼2”从视觉效果场面演员三个维度的舆情分析结果。

互联网舆情知识(爱奇艺场景下NLP应用与文本舆情分析)(7)

图7:电影“战狼2”的部分舆情分析结果

带情感的热词分析效果可以访问爱奇艺指数网站http://index.iqiyi.com/,其中词的大小反应提及频度, 词的颜色反映情感色彩

七.电影票房和电视剧VV预测

无论是票房还是VV的预测,都面临很大的挑战,包括:

01、提前时间长(提前1年 / 半年等), 可获取的信息有限

02、上线前影响因素较多 (如同期影片、突发事件)

03、训练样本少(少于1000部)

04、站内外多个数据源的数据融合、清洗等

基于大数据和机器学习算法,我们对电影票房、电视剧VV(video view)、综艺VV等提前60天、180天、360天等多个时间窗口预测,为版权剧采购立项、自制剧立项、广告售卖等提供科学的数据支撑。

为获得较好的性能,我们在数据清洗和特征工程上做了很多尝试。最后采用了包括时间类, 题材类, 播放平台和方式类, 指数类, ip类, 前作类、趋势类等100多维特征、并对丢失特征的补全和部分特征的变换。

模型上对比了线性模型, SVM, 随机森林, GBDT, DNN, stacking集成方法等。

在最近的90部版权电视剧上最优的R2准确率为85%。vv超10亿的头部剧预测误差在30%以内的占67%,误差在50%以内是100%。

图8是部分剧的预测vv与真实vv的比较。

互联网舆情知识(爱奇艺场景下NLP应用与文本舆情分析)(8)

图8:部分头部版权剧提前180天、60天

预测值和真实值的对比

八.总结

基于用户弱标注和人工精准标注数据、使用机器学习和深度学习的自然语言处理技术更好地理解视频、理解用户,从而让搜索、推荐、数据挖掘更智能,为用户提供智能化的专业视频体验。

接下来,我们要进一步优化上述功能模块,并拓展在视频场景下的更多应用。

在算法上,将进一步探索更有效的深度学习模型、文本和图像的融合、迁移学习等提高系统的性能。

,

标签:

推荐阅读

  • ​法老之蛇世界未解之谜(变态神人终结黑暗时代)

    法老之蛇世界未解之谜(变态神人终结黑暗时代) 这道题 还真有点东西 从前,有一个农场养了一对刚出生的兔子。 假设一对刚出生的小兔一个月后就能长成大兔,再过一个月就能生下...

    2023-08-05 00:09:43
  • ​二月二龙抬头龙是怎样的(作为龙的传人不可不知的这些讲究)

    二月二龙抬头龙是怎样的(作为龙的传人不可不知的这些讲究) 后天农历二月初二,为 龙抬头节 , 又称春 龙节或春耕节 。 有这么一句民谚“龙不抬头天不雨”,因此在农耕时代,二...

    2023-08-05 00:06:50
  • ​火化前怎么确认是不是假死(假死的人送到火葬场能被发现吗)

    火化前怎么确认是不是假死(假死的人送到火葬场能被发现吗) 人作为地球上最具智慧的生物,主宰着地球上的一切,却逃脱不了生存法则,对于人类来说,从出生的那一刻起,都可能...

    2023-08-05 00:04:45
  • ​喝茶必备的10种茶具(史上最全的茶具使用讲解)

    喝茶必备的10种茶具(史上最全的茶具使用讲解) 众所周知,中国是茶文化的起源地,同时也是茶的故乡。据说中国的饮茶历史始于神农时代,从此就足以看出中国具有悠久的饮茶历史...

    2023-08-05 00:02:40
  • ​孕妇最好用的护肤品排行榜 孕妇放心使用的12大护肤品牌清单

    孕妇最好用的护肤品排行榜 孕妇放心使用的12大护肤品牌清单 昨天要好的女朋友跟我说 十一假期她们有个大计划 竟然要开始备孕啦~ 好吧,说好的要好好享受婚后二人世界呢 她的下一...

    2023-08-04 23:59:46
  • ​孕妇怎么护肤才好(孕期也要美美的)

    孕妇怎么护肤才好(孕期也要美美的) 前几日,一个备孕的小伙伴问我该买什么护肤品。我表示很疑惑,我还是个没对象的“黄金单身汉”呢!不过为了小伙伴的护肤问题,今天研究了...

    2023-08-04 23:57:41
  • ​海底捞涨价恢复原价吗(调回原价刚刚海底捞就涨价道歉了)

    海底捞涨价恢复原价吗(调回原价刚刚海底捞就涨价道歉了) 海底捞就涨价一事道歉了!广州推出11条措施,中小微餐饮减免5个月社保费;武汉解封,地方官直播卖热干面;“2020年零...

    2023-08-04 23:55:36
  • ​华米amazfitgtr2海外版评测(Amazfit跃我GTR3系列新品发布)

    华米amazfitgtr2海外版评测(Amazfit跃我GTR3系列新品发布) 华米是被巨头“吓大”的。 ——在被问到“如何面对苹果、华为等巨头的竞争”时,华米科技创始人、董事长兼CEO黄汪引用了投...

    2023-08-04 23:53:32
  • ​uled电视是什么意思

    uled电视是什么意思 uled电视是使用ultra-led技术制作的电视,它是海信自主研制的显示技术,有170多项专利,可以让电视的亮度更高、对比度高、画质细节更强,其材质为LED,但加入了...

    2023-08-04 22:27:00
  • ​李鸿其和姜珮瑶结婚了吗 他们在剧中的关系是情侣

    李鸿其和姜珮瑶结婚了吗 他们在剧中的关系是情侣 《亲爱的热爱的》小米和亚亚这对情侣也非常甜,因为该剧两人也吸粉无数,饰演小米和亚亚的是演员李鸿其和姜珮瑶,他们在剧中...

    2023-08-04 22:24:53
  • ​金海心现在怎么样了 金海心的丈夫是谁

    金海心现在怎么样了 金海心的丈夫是谁 金海心说出来很多人清楚,可她结婚了没有的疑问,很多网友就想去了解一下有关的故事,看她的经历来说没有结婚的可能比较大,中间传出一...

    2023-08-04 22:22:47
  • ​干巴爹是什么意思,日语翻译过来为加油努力(遇到可以这样回答)

    干巴爹是什么意思,日语翻译过来为加油努力(遇到可以这样回答) 现在的网络用语是越来越多了,不过很多网络用语有些小伙伴们可能并不知道是啥意思。就比如干巴爹是什么意思就是...

    2023-08-04 22:20:41
  • ​夏娃之秀是什么档次

    夏娃之秀是什么档次 夏娃之秀属于中档内衣品牌,该品牌成立于2007年,主要的经营范围覆盖了内衣、内裤、家居服以及部分纺织品。夏娃之秀的价位集中在50至300rmb之间,普通内裤的售...

    2023-08-04 22:18:35
  • ​华硕是哪个国家的品牌

    华硕是哪个国家的品牌 华硕是中国品牌,它是来自中国宝岛台湾省的牌子,在1989年成立,是现在最有名的主板、显卡生厂商,并且也生产自己的笔记本电脑。华硕是高端品牌,质量比...

    2023-08-04 22:16:29
  • ​保护水资源的措施有哪些

    保护水资源的措施有哪些 全球淡水资源不仅短缺而且地区分布极不平衡,应加强保护水资源意识,加大保护水环境力度,从自身做起,从小事做起,否则地球上最后一滴水将是我们的眼...

    2023-08-04 22:14:23
  • ​韩国男星苏志燮与小17岁女友结婚,去年5月份公开恋情

    韩国男星苏志燮与小17岁女友结婚,去年5月份公开恋情 近日,韩国娱乐圈又传出了一条喜讯,4月7号,据韩国媒体报道,苏志燮的经纪公司发文,公开旗下艺人苏志燮与主持人赵恩静已...

    2023-08-04 22:12:17
  • ​重达20公斤左右的龙虾 波士顿大龙虾体型较大(体长1.1米)

    重达20公斤左右的龙虾 波士顿大龙虾体型较大(体长1.1米) 重达20公斤左右的龙虾是波士顿大龙虾,体型较大,体长达到了1.1米。 随着社会的不断发展,人们对于自己的生活要求相对来说...

    2023-08-04 22:10:11
  • ​蓉城是哪个城市为什么叫蓉城 四川省会的别称

    蓉城是哪个城市为什么叫蓉城 四川省会的别称 蓉城这个称呼很多人都知道,不过蓉城是哪个城市为什么叫蓉城?其实蓉城就是四川省会成都的别称。那么成都为什么被称为蓉城了?这...

    2023-08-04 22:08:04
  • ​国宝级的四位院士(令人动容的神仙眷侣)

    国宝级的四位院士(令人动容的神仙眷侣) Aug. 7 灼见( 微信号:penetratingview) 科研不易寻爱更难,一生只够爱一个人。 作者 | 北洋君 来源 | 北洋之家(bypm2016) 又到七夕,在这个特...

    2023-08-04 13:42:35
  • ​话说天津卫(天津卫背后流传的9个神秘传说)

    话说天津卫(天津卫背后流传的9个神秘传说) “天”是天子的意思,而“津”是指渡口的意思。天津得到赐名后,于同年设置了军事部门。“卫”是明朝的军事建制。当时天津设有天...

    2023-08-04 13:40:30