VITA:邁向開源互動式全方位多模態LLMVITA: Towards Open-Source Interactive Omni Multimodal LLM
GPT-4o的卓越多模式能力和互動體驗凸顯了它們在實際應用中的必要性,然而開源模型很少在這兩個領域表現出色。在本文中,我們介紹了VITA,這是第一個開源多模式大型語言模型(MLLM),擅長同時處理和分析視頻、圖像、文本和音頻模式,同時具有先進的多模式互動體驗。從以Mixtral 8x7B為語言基礎開始,我們擴展了其中文詞彙,並進行了雙語指導調整。我們通過兩階段多任務學習的多模式對齊和指導調整,進一步賦予語言模型視覺和音頻能力。VITA展示了多語言、視覺和音頻理解的堅實基礎能力,其在一系列單模式和多模式基準測試中表現出色。除了基礎能力外,我們在增強自然多模式人機交互體驗方面取得了顯著進展。據我們所知,我們是第一個在MLLM中利用非覺醒互動和音頻中斷的研究者。VITA是開源社區探索多模式理解和互動無縫整合的第一步。雖然在接近封閉源對應方面還有很多工作要做,但我們希望它作為先驅的角色可以成為後續研究的基石。項目頁面:https://vita-home.github.io。