ChatPaper.aiChatPaper

InteractiveOmni : Un modèle unifié omni-modal pour les dialogues multi-tours audio-visuels

InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue

October 15, 2025
papers.authors: Wenwen Tong, Hewei Guo, Dongchuan Ran, Jiangnan Chen, Jiefan Lu, Kaibin Wang, Keqiang Li, Xiaoxu Zhu, Jiakui Li, Kehan Li, Xueheng Li, Lumin Li, Chenxu Guo, Jiasheng Zhou, Jiandong Chen, Xianye Wu, Jiahao Wang, Silei Wu, Lei Chen, Hanming Deng, Yuxuan Song, Dinghao Zhou, Guiping Zhong, Ken Zheng, Shiyin Kang, Lewei Lu
cs.AI

papers.abstract

Nous présentons InteractiveOmni, un modèle de langage large omni-modal unifié et open-source pour l'interaction audio-visuelle multi-tours, allant de 4 à 8 milliards de paramètres, conçu pour mener le domaine des modèles légers en offrant une compréhension omni-modale complète et des capacités de génération de parole. Pour y parvenir, nous intégrons l'encodeur visuel, l'encodeur audio, le modèle de langage large et le décodeur de parole dans un modèle unifié pour les tâches de compréhension et de génération. Nous concevons une stratégie d'entraînement multi-étapes pour garantir des capacités intermodales robustes, incluant un pré-entraînement pour la compréhension omni-modale, suivi d'un post-entraînement avec des conversations vocales et des interactions audio-visuelles. Pour permettre une capacité conversationnelle à long terme semblable à celle des humains, nous soigneusement élaborons un jeu de données d'entraînement multi-tours qui améliore la capacité du modèle à gérer des interactions complexes et multi-tours. Pour évaluer efficacement les capacités de mémoire multi-tours et d'interaction vocale, nous construisons le benchmark de mémoire multi-tours multi-modale et le benchmark d'interaction vocale multi-tours. Les expériences démontrent qu'InteractiveOmni surpasse significativement les modèles open-source leaders et offre une expérience audio-visuelle multi-tours plus intelligente, en particulier dans ses capacités de mémoire à long terme. Notamment, InteractiveOmni-4B est comparable à des modèles beaucoup plus grands comme Qwen2.5-Omni-7B sur des benchmarks généraux, et il peut conserver 97% des performances d'InteractiveOmni-8B tout en utilisant seulement 50% de la taille du modèle. Obtenant des résultats de pointe contre des modèles de taille similaire dans les tâches de compréhension d'images, d'audio, de vidéo et de génération de parole, InteractiveOmni est une base accessible et open-source pour les systèmes interactifs intelligents de nouvelle génération.
English
We introduce InteractiveOmni, a unified and open-source omni-modal large language model for audio-visual multi-turn interaction, ranging from 4B to 8B parameters, designed to lead the field of lightweight models by offering comprehensive omni-modal understanding and speech generation capabilities. To achieve this, we integrate the vision encoder, audio encoder, large language model, and speech decoder into a unified model for understanding and generation tasks. We design a multi-stage training strategy to ensure robust cross-modal capabilities, including pre-training for omni-modal understanding, followed by post-training with speech conversation and audio-visual interaction. To enable human-like long-term conversational ability, we meticulously curate a multi-turn training dataset that enhances the model's ability to handle complex and multi-turn interactions. To effectively evaluate the multi-turn memory and speech interaction capabilities, we construct the multi-modal multi-turn memory benchmark and the multi-turn speech interaction benchmark. Experiments demonstrate that InteractiveOmni significantly outperforms leading open-source models and provides a more intelligent multi-turn audio-visual experience, particularly in its long-term memory capabilities. Notably, InteractiveOmni-4B is comparable to the much larger model like Qwen2.5-Omni-7B on general benchmarks, and it can retain 97% of the performance of the InteractiveOmni-8B while utilizing only 50% of the model size. Achieving state-of-the-art results against similarly sized models across image, audio, video understanding, and speech generation tasks, InteractiveOmni is an accessible, open-source foundation for next-generation intelligent interactive systems.
PDF282October 16, 2025