中國團隊成功構建全球首個圖文音三模態預訓練模型

2021年07月08日16:25

來源:中國新聞網

  中新網北京7月8日電 (記者 孫自法)記者8日從中國科學院自動化研究所(中科院自動化所)獲悉,該所科研團隊成功構建全球首個圖文音(視覺-文本-語音)三模態預訓練模型,將解鎖更多智能之美,讓人工智能(AI)更接近人類想象力。

  目前,已有的多模態預訓練模型通常僅考慮“圖像和文本”或者“視頻和文本”兩個模態,忽視了周圍環境中普遍存在的語音信息,並且模型極少兼具理解與生成能力,難以在生成任務與理解類任務中同時取得良好表現。

  針對這些問題,中科院自動化所科研團研究隊提出圖文音三模態預訓練模型,將文本、語音、圖像、視頻等多模態內容聯合起來進行學習。該模型由單模態編碼器、跨模態編碼器和跨模態解碼器構成,採用分別基於詞條級別、模態級別以及樣本級別的多層次、多任務三級預訓練自監督學習方式,更關注圖文音三模態數據之間的關聯特性以及跨模態轉換問題,對更廣泛、更多樣的下游任務提供模型基礎支撐。

  科研團隊指出,圖文音三模態預訓練模型不僅可實現圖像識別、語音識別等跨模態理解任務,也能完成從文本生成圖像、從圖像生成文本、語音生成圖像等跨模態生成任務。同時,引入語音模態後的多模態預訓練模型,可突破性直接實現三模態的統一表示,特別是首次實現“以圖生音”和“以音生圖”。

  此外,該模型靈活的自監督學習框架可同時支持三種或任兩種模態弱關聯數據進行預訓練,能有效降低多模態數據收集與清洗成本,從而取得預訓練模型突破性進展。

  中科院自動化所表示,圖文音三模態預訓練模型的提出和構建,將改變當前單一模型對應單一任務的人工智研發範式,大幅提升文本、語音、圖像和視頻等領域的基礎任務性能,並在多模態內容的理解、搜索、推薦和問答;語音識別和合成;人機交互和無人駕駛等商業應用中具有潛力巨大的市場價值。

  未來,“大數據+大模型+多模態”的多任務統一學習,將引領人工智能技術發展的潮流。(完)

編輯:梁倩文

我來説兩句 0條評論 0人蔘與,