InteractiveOmni: Un Modello Omni-modale Unificato per Dialoghi Multi-turn Audio-Visivi

Abstract

Presentiamo InteractiveOmni, un modello linguistico di grandi dimensioni omni-modale unificato e open-source per l'interazione multi-turn audio-visuale, con dimensioni che vanno da 4B a 8B parametri, progettato per guidare il campo dei modelli leggeri offrendo una comprensione omni-modale completa e capacità di generazione del parlato. Per raggiungere questo obiettivo, integriamo l'encoder visivo, l'encoder audio, il modello linguistico di grandi dimensioni e il decoder del parlato in un modello unificato per compiti di comprensione e generazione. Progettiamo una strategia di addestramento multi-fase per garantire robuste capacità cross-modali, inclusa una pre-addestramento per la comprensione omni-modale, seguita da un post-addestramento con conversazioni vocali e interazioni audio-visuali. Per abilitare una capacità conversazionale a lungo termine simile a quella umana, curiamo meticolosamente un dataset di addestramento multi-turn che migliora la capacità del modello di gestire interazioni complesse e multi-turn. Per valutare efficacemente le capacità di memoria multi-turn e di interazione vocale, costruiamo il benchmark di memoria multi-turn multi-modale e il benchmark di interazione vocale multi-turn. Gli esperimenti dimostrano che InteractiveOmni supera significativamente i principali modelli open-source e fornisce un'esperienza audio-visuale multi-turn più intelligente, in particolare nelle sue capacità di memoria a lungo termine. È degno di nota che InteractiveOmni-4B è paragonabile a modelli molto più grandi come Qwen2.5-Omni-7B su benchmark generali, e può mantenere il 97% delle prestazioni di InteractiveOmni-8B utilizzando solo il 50% delle dimensioni del modello. Raggiungendo risultati all'avanguardia rispetto a modelli di dimensioni simili in compiti di comprensione di immagini, audio, video e generazione del parlato, InteractiveOmni rappresenta una base open-source accessibile per i sistemi interattivi intelligenti di prossima generazione.

English

We introduce InteractiveOmni, a unified and open-source omni-modal large language model for audio-visual multi-turn interaction, ranging from 4B to 8B parameters, designed to lead the field of lightweight models by offering comprehensive omni-modal understanding and speech generation capabilities. To achieve this, we integrate the vision encoder, audio encoder, large language model, and speech decoder into a unified model for understanding and generation tasks. We design a multi-stage training strategy to ensure robust cross-modal capabilities, including pre-training for omni-modal understanding, followed by post-training with speech conversation and audio-visual interaction. To enable human-like long-term conversational ability, we meticulously curate a multi-turn training dataset that enhances the model's ability to handle complex and multi-turn interactions. To effectively evaluate the multi-turn memory and speech interaction capabilities, we construct the multi-modal multi-turn memory benchmark and the multi-turn speech interaction benchmark. Experiments demonstrate that InteractiveOmni significantly outperforms leading open-source models and provides a more intelligent multi-turn audio-visual experience, particularly in its long-term memory capabilities. Notably, InteractiveOmni-4B is comparable to the much larger model like Qwen2.5-Omni-7B on general benchmarks, and it can retain 97% of the performance of the InteractiveOmni-8B while utilizing only 50% of the model size. Achieving state-of-the-art results against similarly sized models across image, audio, video understanding, and speech generation tasks, InteractiveOmni is an accessible, open-source foundation for next-generation intelligent interactive systems.

InteractiveOmni: Un Modello Omni-modale Unificato per Dialoghi Multi-turn Audio-Visivi

InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue

Abstract

Support