VITA:面向开源的交互式全模态LLMVITA: Towards Open-Source Interactive Omni Multimodal LLM
GPT-4o的显著多模态能力和交互体验突显了它们在实际应用中的必要性,然而开源模型很少在这两个领域都表现出色。在本文中,我们介绍了VITA,这是第一个开源的多模态大型语言模型(MLLM),擅长同时处理和分析视频、图像、文本和音频模态,同时具有先进的多模态交互体验。从Mixtral 8x7B作为语言基础出发,我们扩展了其中文词汇,然后进行了双语指导调优。我们进一步通过两阶段多任务学习的多模态对齐和指导调优,赋予语言模型视觉和音频能力。VITA展示了多语言、视觉和音频理解的稳健基础能力,其在一系列单模态和多模态基准测试中表现出色。除了基础能力,我们在增强自然多模态人机交互体验方面取得了可观进展。据我们所知,我们是第一个在MLLM中利用非唤醒交互和音频中断的团队。VITA是开源社区探索多模态理解和交互无缝集成的第一步。尽管在接近闭源对应模型方面还有很多工作要做,但我们希望它作为先驱的角色可以成为后续研究的基石。项目页面:https://vita-home.github.io。