InteractiveOmni: Ein einheitliches Omni-modales Modell für audiovisuelle Mehrfachdialoge

papers.abstract

Wir stellen InteractiveOmni vor, ein einheitliches und quelloffenes omni-modales großes Sprachmodell für audio-visuelle Mehrfachinteraktionen, das von 4B bis 8B Parameter umfasst und darauf abzielt, das Feld der leichtgewichtigen Modelle durch umfassende omni-modale Verständnis- und Sprachgenerierungsfähigkeiten zu führen. Um dies zu erreichen, integrieren wir den Vision-Encoder, den Audio-Encoder, das große Sprachmodell und den Sprach-Decoder in ein einheitliches Modell für Verständnis- und Generierungsaufgaben. Wir entwickeln eine mehrstufige Trainingsstrategie, um robuste cross-modale Fähigkeiten sicherzustellen, einschließlich eines Pre-Trainings für omni-modales Verständnis, gefolgt von einem Post-Training mit Sprachkonversation und audio-visueller Interaktion. Um eine menschenähnliche Langzeit-Konversationsfähigkeit zu ermöglichen, kuratieren wir sorgfältig einen Mehrfach-Turn-Trainingsdatensatz, der die Fähigkeit des Modells verbessert, komplexe und mehrfache Interaktionen zu bewältigen. Um die Mehrfach-Turn-Gedächtnis- und Sprachinteraktionsfähigkeiten effektiv zu bewerten, konstruieren wir den multimodalen Mehrfach-Turn-Gedächtnis-Benchmark und den Mehrfach-Turn-Sprachinteraktions-Benchmark. Experimente zeigen, dass InteractiveOmni führende quelloffene Modelle deutlich übertrifft und ein intelligenteres Mehrfach-Turn-Audio-Visual-Erlebnis bietet, insbesondere in seinen Langzeitgedächtnisfähigkeiten. Bemerkenswerterweise ist InteractiveOmni-4B auf allgemeinen Benchmarks mit einem viel größeren Modell wie Qwen2.5-Omni-7B vergleichbar und kann 97 % der Leistung von InteractiveOmni-8B beibehalten, während es nur 50 % der Modellgröße nutzt. Mit state-of-the-art Ergebnissen bei ähnlich großen Modellen in den Bereichen Bild-, Audio-, Video-Verständnis und Sprachgenerierung ist InteractiveOmni eine zugängliche, quelloffene Grundlage für die nächste Generation intelligenter interaktiver Systeme.

English

We introduce InteractiveOmni, a unified and open-source omni-modal large language model for audio-visual multi-turn interaction, ranging from 4B to 8B parameters, designed to lead the field of lightweight models by offering comprehensive omni-modal understanding and speech generation capabilities. To achieve this, we integrate the vision encoder, audio encoder, large language model, and speech decoder into a unified model for understanding and generation tasks. We design a multi-stage training strategy to ensure robust cross-modal capabilities, including pre-training for omni-modal understanding, followed by post-training with speech conversation and audio-visual interaction. To enable human-like long-term conversational ability, we meticulously curate a multi-turn training dataset that enhances the model's ability to handle complex and multi-turn interactions. To effectively evaluate the multi-turn memory and speech interaction capabilities, we construct the multi-modal multi-turn memory benchmark and the multi-turn speech interaction benchmark. Experiments demonstrate that InteractiveOmni significantly outperforms leading open-source models and provides a more intelligent multi-turn audio-visual experience, particularly in its long-term memory capabilities. Notably, InteractiveOmni-4B is comparable to the much larger model like Qwen2.5-Omni-7B on general benchmarks, and it can retain 97% of the performance of the InteractiveOmni-8B while utilizing only 50% of the model size. Achieving state-of-the-art results against similarly sized models across image, audio, video understanding, and speech generation tasks, InteractiveOmni is an accessible, open-source foundation for next-generation intelligent interactive systems.

InteractiveOmni: Ein einheitliches Omni-modales Modell für audiovisuelle Mehrfachdialoge

InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue

papers.abstract

Support