InteractiveOmni: オーディオビジュアル多ターン対話のための統合型オムニモーダルモデル
InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue
October 15, 2025
著者: Wenwen Tong, Hewei Guo, Dongchuan Ran, Jiangnan Chen, Jiefan Lu, Kaibin Wang, Keqiang Li, Xiaoxu Zhu, Jiakui Li, Kehan Li, Xueheng Li, Lumin Li, Chenxu Guo, Jiasheng Zhou, Jiandong Chen, Xianye Wu, Jiahao Wang, Silei Wu, Lei Chen, Hanming Deng, Yuxuan Song, Dinghao Zhou, Guiping Zhong, Ken Zheng, Shiyin Kang, Lewei Lu
cs.AI
要旨
本論文では、オーディオビジュアル多ターンインタラクションのための統一されたオープンソースのオムニモーダル大規模言語モデル「InteractiveOmni」を紹介する。このモデルは、4Bから8Bのパラメータ範囲を持ち、軽量モデルの分野をリードすることを目的として、包括的なオムニモーダル理解と音声生成能力を提供する。これを実現するため、視覚エンコーダ、音声エンコーダ、大規模言語モデル、および音声デコーダを統合し、理解と生成タスクのための統一モデルを構築した。頑健なクロスモーダル能力を確保するために、オムニモーダル理解のための事前学習に続き、音声会話とオーディオビジュアルインタラクションの事後学習を含む多段階トレーニング戦略を設計した。人間のような長期的な会話能力を実現するため、複雑な多ターンインタラクションを処理するモデルの能力を強化する多ターントレーニングデータセットを慎重に作成した。多ターンメモリと音声インタラクション能力を効果的に評価するため、マルチモーダル多ターンメモリベンチマークと多ターン音声インタラクションベンチマークを構築した。実験結果は、InteractiveOmniが主要なオープンソースモデルを大幅に上回り、特に長期的メモリ能力において、よりインテリジェントな多ターンオーディオビジュアル体験を提供することを示している。注目すべきは、InteractiveOmni-4BがQwen2.5-Omni-7Bのようなはるかに大規模なモデルと一般的なベンチマークで同等の性能を発揮し、モデルサイズの50%しか使用せずにInteractiveOmni-8Bの性能の97%を維持できる点である。画像、音声、ビデオ理解、および音声生成タスクにおいて、同サイズのモデルに対して最先端の結果を達成するInteractiveOmniは、次世代のインテリジェントインタラクティブシステムのためのアクセス可能なオープンソース基盤である。
English
We introduce InteractiveOmni, a unified and open-source omni-modal large
language model for audio-visual multi-turn interaction, ranging from 4B to 8B
parameters, designed to lead the field of lightweight models by offering
comprehensive omni-modal understanding and speech generation capabilities. To
achieve this, we integrate the vision encoder, audio encoder, large language
model, and speech decoder into a unified model for understanding and generation
tasks. We design a multi-stage training strategy to ensure robust cross-modal
capabilities, including pre-training for omni-modal understanding, followed by
post-training with speech conversation and audio-visual interaction. To enable
human-like long-term conversational ability, we meticulously curate a
multi-turn training dataset that enhances the model's ability to handle complex
and multi-turn interactions. To effectively evaluate the multi-turn memory and
speech interaction capabilities, we construct the multi-modal multi-turn memory
benchmark and the multi-turn speech interaction benchmark. Experiments
demonstrate that InteractiveOmni significantly outperforms leading open-source
models and provides a more intelligent multi-turn audio-visual experience,
particularly in its long-term memory capabilities. Notably, InteractiveOmni-4B
is comparable to the much larger model like Qwen2.5-Omni-7B on general
benchmarks, and it can retain 97% of the performance of the InteractiveOmni-8B
while utilizing only 50% of the model size. Achieving state-of-the-art results
against similarly sized models across image, audio, video understanding, and
speech generation tasks, InteractiveOmni is an accessible, open-source
foundation for next-generation intelligent interactive systems.