InteractiveOmni: Ein einheitliches Omni-modales Modell für audiovisuelle Mehrfachdialoge
InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue
October 15, 2025
papers.authors: Wenwen Tong, Hewei Guo, Dongchuan Ran, Jiangnan Chen, Jiefan Lu, Kaibin Wang, Keqiang Li, Xiaoxu Zhu, Jiakui Li, Kehan Li, Xueheng Li, Lumin Li, Chenxu Guo, Jiasheng Zhou, Jiandong Chen, Xianye Wu, Jiahao Wang, Silei Wu, Lei Chen, Hanming Deng, Yuxuan Song, Dinghao Zhou, Guiping Zhong, Ken Zheng, Shiyin Kang, Lewei Lu
cs.AI
papers.abstract
Wir stellen InteractiveOmni vor, ein einheitliches und quelloffenes omni-modales großes Sprachmodell für audio-visuelle Mehrfachinteraktionen, das von 4B bis 8B Parameter umfasst und darauf abzielt, das Feld der leichtgewichtigen Modelle durch umfassende omni-modale Verständnis- und Sprachgenerierungsfähigkeiten zu führen. Um dies zu erreichen, integrieren wir den Vision-Encoder, den Audio-Encoder, das große Sprachmodell und den Sprach-Decoder in ein einheitliches Modell für Verständnis- und Generierungsaufgaben. Wir entwickeln eine mehrstufige Trainingsstrategie, um robuste cross-modale Fähigkeiten sicherzustellen, einschließlich eines Pre-Trainings für omni-modales Verständnis, gefolgt von einem Post-Training mit Sprachkonversation und audio-visueller Interaktion. Um eine menschenähnliche Langzeit-Konversationsfähigkeit zu ermöglichen, kuratieren wir sorgfältig einen Mehrfach-Turn-Trainingsdatensatz, der die Fähigkeit des Modells verbessert, komplexe und mehrfache Interaktionen zu bewältigen. Um die Mehrfach-Turn-Gedächtnis- und Sprachinteraktionsfähigkeiten effektiv zu bewerten, konstruieren wir den multimodalen Mehrfach-Turn-Gedächtnis-Benchmark und den Mehrfach-Turn-Sprachinteraktions-Benchmark. Experimente zeigen, dass InteractiveOmni führende quelloffene Modelle deutlich übertrifft und ein intelligenteres Mehrfach-Turn-Audio-Visual-Erlebnis bietet, insbesondere in seinen Langzeitgedächtnisfähigkeiten. Bemerkenswerterweise ist InteractiveOmni-4B auf allgemeinen Benchmarks mit einem viel größeren Modell wie Qwen2.5-Omni-7B vergleichbar und kann 97 % der Leistung von InteractiveOmni-8B beibehalten, während es nur 50 % der Modellgröße nutzt. Mit state-of-the-art Ergebnissen bei ähnlich großen Modellen in den Bereichen Bild-, Audio-, Video-Verständnis und Sprachgenerierung ist InteractiveOmni eine zugängliche, quelloffene Grundlage für die nächste Generation intelligenter interaktiver Systeme.
English
We introduce InteractiveOmni, a unified and open-source omni-modal large
language model for audio-visual multi-turn interaction, ranging from 4B to 8B
parameters, designed to lead the field of lightweight models by offering
comprehensive omni-modal understanding and speech generation capabilities. To
achieve this, we integrate the vision encoder, audio encoder, large language
model, and speech decoder into a unified model for understanding and generation
tasks. We design a multi-stage training strategy to ensure robust cross-modal
capabilities, including pre-training for omni-modal understanding, followed by
post-training with speech conversation and audio-visual interaction. To enable
human-like long-term conversational ability, we meticulously curate a
multi-turn training dataset that enhances the model's ability to handle complex
and multi-turn interactions. To effectively evaluate the multi-turn memory and
speech interaction capabilities, we construct the multi-modal multi-turn memory
benchmark and the multi-turn speech interaction benchmark. Experiments
demonstrate that InteractiveOmni significantly outperforms leading open-source
models and provides a more intelligent multi-turn audio-visual experience,
particularly in its long-term memory capabilities. Notably, InteractiveOmni-4B
is comparable to the much larger model like Qwen2.5-Omni-7B on general
benchmarks, and it can retain 97% of the performance of the InteractiveOmni-8B
while utilizing only 50% of the model size. Achieving state-of-the-art results
against similarly sized models across image, audio, video understanding, and
speech generation tasks, InteractiveOmni is an accessible, open-source
foundation for next-generation intelligent interactive systems.