InteractiveOmni: Un Modello Omni-modale Unificato per Dialoghi Multi-turn Audio-Visivi
InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue
October 15, 2025
Autori: Wenwen Tong, Hewei Guo, Dongchuan Ran, Jiangnan Chen, Jiefan Lu, Kaibin Wang, Keqiang Li, Xiaoxu Zhu, Jiakui Li, Kehan Li, Xueheng Li, Lumin Li, Chenxu Guo, Jiasheng Zhou, Jiandong Chen, Xianye Wu, Jiahao Wang, Silei Wu, Lei Chen, Hanming Deng, Yuxuan Song, Dinghao Zhou, Guiping Zhong, Ken Zheng, Shiyin Kang, Lewei Lu
cs.AI
Abstract
Presentiamo InteractiveOmni, un modello linguistico di grandi dimensioni omni-modale unificato e open-source per l'interazione multi-turn audio-visuale, con dimensioni che vanno da 4B a 8B parametri, progettato per guidare il campo dei modelli leggeri offrendo una comprensione omni-modale completa e capacità di generazione del parlato. Per raggiungere questo obiettivo, integriamo l'encoder visivo, l'encoder audio, il modello linguistico di grandi dimensioni e il decoder del parlato in un modello unificato per compiti di comprensione e generazione. Progettiamo una strategia di addestramento multi-fase per garantire robuste capacità cross-modali, inclusa una pre-addestramento per la comprensione omni-modale, seguita da un post-addestramento con conversazioni vocali e interazioni audio-visuali. Per abilitare una capacità conversazionale a lungo termine simile a quella umana, curiamo meticolosamente un dataset di addestramento multi-turn che migliora la capacità del modello di gestire interazioni complesse e multi-turn. Per valutare efficacemente le capacità di memoria multi-turn e di interazione vocale, costruiamo il benchmark di memoria multi-turn multi-modale e il benchmark di interazione vocale multi-turn. Gli esperimenti dimostrano che InteractiveOmni supera significativamente i principali modelli open-source e fornisce un'esperienza audio-visuale multi-turn più intelligente, in particolare nelle sue capacità di memoria a lungo termine. È degno di nota che InteractiveOmni-4B è paragonabile a modelli molto più grandi come Qwen2.5-Omni-7B su benchmark generali, e può mantenere il 97% delle prestazioni di InteractiveOmni-8B utilizzando solo il 50% delle dimensioni del modello. Raggiungendo risultati all'avanguardia rispetto a modelli di dimensioni simili in compiti di comprensione di immagini, audio, video e generazione del parlato, InteractiveOmni rappresenta una base open-source accessibile per i sistemi interattivi intelligenti di prossima generazione.
English
We introduce InteractiveOmni, a unified and open-source omni-modal large
language model for audio-visual multi-turn interaction, ranging from 4B to 8B
parameters, designed to lead the field of lightweight models by offering
comprehensive omni-modal understanding and speech generation capabilities. To
achieve this, we integrate the vision encoder, audio encoder, large language
model, and speech decoder into a unified model for understanding and generation
tasks. We design a multi-stage training strategy to ensure robust cross-modal
capabilities, including pre-training for omni-modal understanding, followed by
post-training with speech conversation and audio-visual interaction. To enable
human-like long-term conversational ability, we meticulously curate a
multi-turn training dataset that enhances the model's ability to handle complex
and multi-turn interactions. To effectively evaluate the multi-turn memory and
speech interaction capabilities, we construct the multi-modal multi-turn memory
benchmark and the multi-turn speech interaction benchmark. Experiments
demonstrate that InteractiveOmni significantly outperforms leading open-source
models and provides a more intelligent multi-turn audio-visual experience,
particularly in its long-term memory capabilities. Notably, InteractiveOmni-4B
is comparable to the much larger model like Qwen2.5-Omni-7B on general
benchmarks, and it can retain 97% of the performance of the InteractiveOmni-8B
while utilizing only 50% of the model size. Achieving state-of-the-art results
against similarly sized models across image, audio, video understanding, and
speech generation tasks, InteractiveOmni is an accessible, open-source
foundation for next-generation intelligent interactive systems.