InteractiveOmni: 오디오-비주얼 멀티턴 대화를 위한 통합 오모달 모델
InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue
October 15, 2025
저자: Wenwen Tong, Hewei Guo, Dongchuan Ran, Jiangnan Chen, Jiefan Lu, Kaibin Wang, Keqiang Li, Xiaoxu Zhu, Jiakui Li, Kehan Li, Xueheng Li, Lumin Li, Chenxu Guo, Jiasheng Zhou, Jiandong Chen, Xianye Wu, Jiahao Wang, Silei Wu, Lei Chen, Hanming Deng, Yuxuan Song, Dinghao Zhou, Guiping Zhong, Ken Zheng, Shiyin Kang, Lewei Lu
cs.AI
초록
우리는 오디오-비주얼 멀티턴 상호작용을 위한 통합적이고 오픈소스인 오므니-모달 대형 언어 모델인 InteractiveOmni를 소개합니다. 이 모델은 4B에서 8B 파라미터 범위를 가지며, 포괄적인 오므니-모달 이해와 음성 생성 능력을 제공하여 경량 모델 분야를 선도하도록 설계되었습니다. 이를 위해 우리는 비전 인코더, 오디오 인코더, 대형 언어 모델, 그리고 음성 디코더를 이해 및 생성 작업을 위한 통합 모델로 통합했습니다. 강력한 크로스-모달 능력을 보장하기 위해, 오므니-모달 이해를 위한 사전 학습과 음성 대화 및 오디오-비주얼 상호작용을 위한 사후 학습을 포함한 다단계 학습 전략을 설계했습니다. 인간과 같은 장기 대화 능력을 가능하게 하기 위해, 우리는 모델이 복잡하고 다단계 상호작용을 처리할 수 있는 능력을 향상시키는 멀티턴 학습 데이터셋을 세심하게 구성했습니다. 멀티턴 메모리와 음성 상호작용 능력을 효과적으로 평가하기 위해, 우리는 멀티모달 멀티턴 메모리 벤치마크와 멀티턴 음성 상호작용 벤치마크를 구축했습니다. 실험 결과, InteractiveOmni는 주요 오픈소스 모델들을 크게 능가하며, 특히 장기 메모리 능력에서 더 지능적인 오디오-비주얼 멀티턴 경험을 제공합니다. 주목할 만한 점은, InteractiveOmni-4B는 Qwen2.5-Omni-7B와 같은 훨씬 더 큰 모델과 일반 벤치마크에서 비슷한 성능을 보이며, 모델 크기의 50%만 사용하면서도 InteractiveOmni-8B 성능의 97%를 유지할 수 있습니다. 이미지, 오디오, 비디오 이해 및 음성 생성 작업에서 유사한 크기의 모델들과 비교하여 최첨단 결과를 달성한 InteractiveOmni는 차세대 지능형 상호작용 시스템을 위한 접근 가능한 오픈소스 기반입니다.
English
We introduce InteractiveOmni, a unified and open-source omni-modal large
language model for audio-visual multi-turn interaction, ranging from 4B to 8B
parameters, designed to lead the field of lightweight models by offering
comprehensive omni-modal understanding and speech generation capabilities. To
achieve this, we integrate the vision encoder, audio encoder, large language
model, and speech decoder into a unified model for understanding and generation
tasks. We design a multi-stage training strategy to ensure robust cross-modal
capabilities, including pre-training for omni-modal understanding, followed by
post-training with speech conversation and audio-visual interaction. To enable
human-like long-term conversational ability, we meticulously curate a
multi-turn training dataset that enhances the model's ability to handle complex
and multi-turn interactions. To effectively evaluate the multi-turn memory and
speech interaction capabilities, we construct the multi-modal multi-turn memory
benchmark and the multi-turn speech interaction benchmark. Experiments
demonstrate that InteractiveOmni significantly outperforms leading open-source
models and provides a more intelligent multi-turn audio-visual experience,
particularly in its long-term memory capabilities. Notably, InteractiveOmni-4B
is comparable to the much larger model like Qwen2.5-Omni-7B on general
benchmarks, and it can retain 97% of the performance of the InteractiveOmni-8B
while utilizing only 50% of the model size. Achieving state-of-the-art results
against similarly sized models across image, audio, video understanding, and
speech generation tasks, InteractiveOmni is an accessible, open-source
foundation for next-generation intelligent interactive systems.