<var id="h1hxt"></var>
<var id="h1hxt"><video id="h1hxt"><thead id="h1hxt"></thead></video></var>
<var id="h1hxt"><strike id="h1hxt"><thead id="h1hxt"></thead></strike></var>
<cite id="h1hxt"><span id="h1hxt"><thead id="h1hxt"></thead></span></cite>
<menuitem id="h1hxt"><dl id="h1hxt"><progress id="h1hxt"></progress></dl></menuitem>
<var id="h1hxt"><dl id="h1hxt"></dl></var>

中國團隊在視覺常識推理領域獲新突破 一舉成為單、多模型的三項指標第一

首頁 > 科技 > > 正文

日期:2020-12-02 14:21:41    來源:中國網    

視覺常識推理VCR (Visual Commonsense Reasoning )是人工智能領域的前沿熱點問題,從處理類型單一的數據到跨媒體認知、學習和推理的“跨媒體智能”被認為是五大智能方向。

近日,騰訊微視視頻理解團隊在多模態理解領域最權威排行榜之一VCR任務中榮登榜首。該團隊提出的BLENDer(BimodaL ENcoDer)模型超越多家研究機構的模型效果,一舉成為單、多模型的三項指標第一,值得注意的是,BLENDer僅憑單模型效果便超越了此前榜單上的多模型最好效果,賦予了機器更強大的理解和認知能力,并深度應用到短視頻領域。

VisualCommonsense Reasoning (VCR)任務于2018年由華盛頓大學的研究人員首次提出,任務旨在將圖像和自然語言理解二者結合,驗證多模態模型高階認知和常識推理的能力,讓機器擁有“看圖說話”的能力,例如VCR能夠通過圖片中人物的行為,進一步推理出其動機、情緒等信息。VCR榜單是多模態理解領域最權威的排行榜之一,也是當前圖像理解和多模態領域層次最深、門檻最高的任務之一,吸引了微軟、谷歌、Facebook、百度、UCLA等國內外公司和研究機構紛紛參與。

據相關負責人介紹,BLENDer模型賦予了平臺更強大的認知能力,使得包含文本、音頻、視頻等多種媒體信息在內的短視頻內容,能夠更好的做到分類和識別,更加精準理解和挖掘這些海量的跨媒體信息。

在BLENDer模型中,第一階段以NLP中的Bert模型為起點,結合海量數據中抽取得到的數百萬張圖片和對應描述文本作為BLENDer的輸入進行多模態訓練;第二階段,在視覺常識推理數據集上學習電影中的場景和情節,使模型在新數據上獲得更好的遷移能力;第三階段,引入最終問答任務,讓BLENDer利用已有的知識和常識對現有問題進行人物-人物、人物-場景之間關系的挖掘和關聯進行推理,得到最終的答案。

未來,人工智能將具備更加多元、深度的交流學習能力,而技術的創新和精進將進一步推動AI技術在短視頻業務中智能交互場景的落地。(張銘陽)

下一篇:世代甜品RTX 3060Ti 評測 | “等等黨”高光時刻來了!
上一篇:無需母牛人工也能造出乳蛋白 無異于正常牛奶制品

科技