InteractiveOmni: Een Uniform Omni-modale Model voor Audio-Visuele Multi-turn Dialoog
InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue
October 15, 2025
Auteurs: Wenwen Tong, Hewei Guo, Dongchuan Ran, Jiangnan Chen, Jiefan Lu, Kaibin Wang, Keqiang Li, Xiaoxu Zhu, Jiakui Li, Kehan Li, Xueheng Li, Lumin Li, Chenxu Guo, Jiasheng Zhou, Jiandong Chen, Xianye Wu, Jiahao Wang, Silei Wu, Lei Chen, Hanming Deng, Yuxuan Song, Dinghao Zhou, Guiping Zhong, Ken Zheng, Shiyin Kang, Lewei Lu
cs.AI
Samenvatting
We introduceren InteractiveOmni, een uniform en open-source omni-modale grote taalmodellen voor audio-visuele multi-turn interactie, variërend van 4B tot 8B parameters, ontworpen om het veld van lichtgewicht modellen te leiden door uitgebreide omni-modale begrips- en spraakgeneratiecapaciteiten te bieden. Om dit te bereiken, integreren we de visie-encoder, audio-encoder, grote taalmodellen en spraakdecoder in een uniform model voor begrips- en generatietaken. We ontwerpen een meerfasige trainingsstrategie om robuuste cross-modale capaciteiten te waarborgen, inclusief pre-training voor omni-modale begripsvorming, gevolgd door post-training met spraakconversatie en audio-visuele interactie. Om een mensachtige langetermijnconversatievaardigheid mogelijk te maken, stellen we zorgvuldig een multi-turn trainingsdataset samen die het vermogen van het model om complexe en multi-turn interacties te verwerken versterkt. Om de multi-turn geheugen- en spraakinteractiecapaciteiten effectief te evalueren, construeren we de multi-modale multi-turn geheugenbenchmark en de multi-turn spraakinteractiebenchmark. Experimenten tonen aan dat InteractiveOmni aanzienlijk beter presteert dan toonaangevende open-source modellen en een intelligenter multi-turn audio-visuele ervaring biedt, met name in zijn langetermijngeheugencapaciteiten. Opmerkelijk is dat InteractiveOmni-4B vergelijkbaar is met veel grotere modellen zoals Qwen2.5-Omni-7B op algemene benchmarks, en het kan 97% van de prestaties van InteractiveOmni-8B behouden terwijl slechts 50% van de modelgrootte wordt gebruikt. Door state-of-the-art resultaten te behalen tegenover vergelijkbaar grote modellen op het gebied van beeld-, audio-, videobegrip en spraakgeneratietaken, is InteractiveOmni een toegankelijke, open-source basis voor de volgende generatie intelligente interactieve systemen.
English
We introduce InteractiveOmni, a unified and open-source omni-modal large
language model for audio-visual multi-turn interaction, ranging from 4B to 8B
parameters, designed to lead the field of lightweight models by offering
comprehensive omni-modal understanding and speech generation capabilities. To
achieve this, we integrate the vision encoder, audio encoder, large language
model, and speech decoder into a unified model for understanding and generation
tasks. We design a multi-stage training strategy to ensure robust cross-modal
capabilities, including pre-training for omni-modal understanding, followed by
post-training with speech conversation and audio-visual interaction. To enable
human-like long-term conversational ability, we meticulously curate a
multi-turn training dataset that enhances the model's ability to handle complex
and multi-turn interactions. To effectively evaluate the multi-turn memory and
speech interaction capabilities, we construct the multi-modal multi-turn memory
benchmark and the multi-turn speech interaction benchmark. Experiments
demonstrate that InteractiveOmni significantly outperforms leading open-source
models and provides a more intelligent multi-turn audio-visual experience,
particularly in its long-term memory capabilities. Notably, InteractiveOmni-4B
is comparable to the much larger model like Qwen2.5-Omni-7B on general
benchmarks, and it can retain 97% of the performance of the InteractiveOmni-8B
while utilizing only 50% of the model size. Achieving state-of-the-art results
against similarly sized models across image, audio, video understanding, and
speech generation tasks, InteractiveOmni is an accessible, open-source
foundation for next-generation intelligent interactive systems.