InteractiveOmni: Um Modelo Omni-modal Unificado para Diálogo Multiturno Áudio-Visual
InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue
October 15, 2025
Autores: Wenwen Tong, Hewei Guo, Dongchuan Ran, Jiangnan Chen, Jiefan Lu, Kaibin Wang, Keqiang Li, Xiaoxu Zhu, Jiakui Li, Kehan Li, Xueheng Li, Lumin Li, Chenxu Guo, Jiasheng Zhou, Jiandong Chen, Xianye Wu, Jiahao Wang, Silei Wu, Lei Chen, Hanming Deng, Yuxuan Song, Dinghao Zhou, Guiping Zhong, Ken Zheng, Shiyin Kang, Lewei Lu
cs.AI
Resumo
Apresentamos o InteractiveOmni, um modelo de linguagem grande omni-modal unificado e de código aberto para interação multi-turn áudio-visual, variando de 4B a 8B parâmetros, projetado para liderar o campo de modelos leves ao oferecer capacidades abrangentes de compreensão omni-modal e geração de fala. Para alcançar isso, integramos o codificador de visão, o codificador de áudio, o modelo de linguagem grande e o decodificador de fala em um modelo unificado para tarefas de compreensão e geração. Projetamos uma estratégia de treinamento em múltiplos estágios para garantir capacidades robustas de cruzamento modal, incluindo pré-treinamento para compreensão omni-modal, seguido de pós-treinamento com conversação de fala e interação áudio-visual. Para habilitar uma capacidade de conversação de longo prazo semelhante à humana, curamos meticulosamente um conjunto de dados de treinamento multi-turn que aprimora a capacidade do modelo de lidar com interações complexas e multi-turn. Para avaliar efetivamente as capacidades de memória multi-turn e interação de fala, construímos o benchmark de memória multi-turn multimodal e o benchmark de interação de fala multi-turn. Experimentos demonstram que o InteractiveOmni supera significativamente os principais modelos de código aberto e oferece uma experiência áudio-visual multi-turn mais inteligente, particularmente em suas capacidades de memória de longo prazo. Notavelmente, o InteractiveOmni-4B é comparável a modelos muito maiores, como o Qwen2.5-Omni-7B, em benchmarks gerais, e pode reter 97% do desempenho do InteractiveOmni-8B enquanto utiliza apenas 50% do tamanho do modelo. Alcançando resultados de ponta contra modelos de tamanho similar em tarefas de compreensão de imagem, áudio, vídeo e geração de fala, o InteractiveOmni é uma base acessível e de código aberto para sistemas interativos inteligentes de próxima geração.
English
We introduce InteractiveOmni, a unified and open-source omni-modal large
language model for audio-visual multi-turn interaction, ranging from 4B to 8B
parameters, designed to lead the field of lightweight models by offering
comprehensive omni-modal understanding and speech generation capabilities. To
achieve this, we integrate the vision encoder, audio encoder, large language
model, and speech decoder into a unified model for understanding and generation
tasks. We design a multi-stage training strategy to ensure robust cross-modal
capabilities, including pre-training for omni-modal understanding, followed by
post-training with speech conversation and audio-visual interaction. To enable
human-like long-term conversational ability, we meticulously curate a
multi-turn training dataset that enhances the model's ability to handle complex
and multi-turn interactions. To effectively evaluate the multi-turn memory and
speech interaction capabilities, we construct the multi-modal multi-turn memory
benchmark and the multi-turn speech interaction benchmark. Experiments
demonstrate that InteractiveOmni significantly outperforms leading open-source
models and provides a more intelligent multi-turn audio-visual experience,
particularly in its long-term memory capabilities. Notably, InteractiveOmni-4B
is comparable to the much larger model like Qwen2.5-Omni-7B on general
benchmarks, and it can retain 97% of the performance of the InteractiveOmni-8B
while utilizing only 50% of the model size. Achieving state-of-the-art results
against similarly sized models across image, audio, video understanding, and
speech generation tasks, InteractiveOmni is an accessible, open-source
foundation for next-generation intelligent interactive systems.