中國團隊成功構建全球首個圖文音三模態(tài)預訓練模型

時間:2021-07-09來1源:中國新聞網作者:佚名

中新網北京7月8日電 (記者孫自法)記者8日從中國科學院自動化研究所(中科院自動化所)獲悉，該所科研團隊成功構建全球首個圖文音(視覺-文本-語音)三模態(tài)預訓練模型，將解鎖更多智能之美，讓人工智能(AI)更接近人類想象力。

目前，已有的多模態(tài)預訓練模型通常僅考慮“圖像和文本”或者“視頻和文本”兩個模態(tài)，忽視了周圍環(huán)境中普遍存在的語音信息，并且模型極少兼具理解與生成能力，難以在生成任務與理解類任務中同時取得良好表現(xiàn)。

針對這些問題，中科院自動化所科研團研究隊提出圖文音三模態(tài)預訓練模型，將文本、語音、圖像、視頻等多模態(tài)內容聯(lián)合起來進行學習。該模型由單模態(tài)編碼器、跨模態(tài)編碼器和跨模態(tài)解碼器構成，采用分別基于詞條級別、模態(tài)級別以及樣本級別的多層次、多任務三級預訓練自監(jiān)督學習方式，更關注圖文音三模態(tài)數(shù)據(jù)之間的關聯(lián)特性以及跨模態(tài)轉換問題，對更廣泛、更多樣的下游任務提供模型基礎支撐。

科研團隊指出，圖文音三模態(tài)預訓練模型不僅可實現(xiàn)圖像識別、語音識別等跨模態(tài)理解任務，也能完成從文本生成圖像、從圖像生成文本、語音生成圖像等跨模態(tài)生成任務。同時，引入語音模態(tài)后的多模態(tài)預訓練模型，可突破性直接實現(xiàn)三模態(tài)的統(tǒng)一表示，特別是首次實現(xiàn)“以圖生音”和“以音生圖”。

此外，該模型靈活的自監(jiān)督學習框架可同時支持三種或任兩種模態(tài)弱關聯(lián)數(shù)據(jù)進行預訓練，能有效降低多模態(tài)數(shù)據(jù)收集與清洗成本，從而取得預訓練模型突破性進展。

中科院自動化所表示，圖文音三模態(tài)預訓練模型的提出和構建，將改變當前單一模型對應單一任務的人工智研發(fā)范式，大幅提升文本、語音、圖像和視頻等領域的基礎任務性能，并在多模態(tài)內容的理解、搜索、推薦和問答；語音識別和合成；人機交互和無人駕駛等商業(yè)應用中具有潛力巨大的市場價值。

未來，“大數(shù)據(jù)+大模型+多模態(tài)”的多任務統(tǒng)一學習，將引領人工智能技術發(fā)展的潮流。(完)

中國-博士人才網發(fā)布

聲明提示：凡本網注明“來源：XXX”的文/圖等稿件，本網轉載出于傳遞更多信息及方便產業(yè)探討之目的，并不意味著本站贊同其觀點或證實其內容的真實性，文章內容僅供參考。

相關文章

亚洲AV无码精品一区二区在线|国产免费播放一区二区三区|最新人妻无码不卡在线|亚洲成人在线电影

英國《物理世界》雜志戰(zhàn)略合作伙伴，海內外高層次人才服務中心！

高層動態(tài)

哲學類：

經濟學類：

文學類：

歷史學類：

管理學類：

藝術學類：

地區(qū)
招聘

熱點
招聘

關注微信

人才工作

人才論點

高層動態(tài)

科研動態(tài)

中國團隊成功構建全球首個圖文音三模態(tài)預訓練模型

重點招聘