InteractiveOmni: Een Uniform Omni-modale Model voor Audio-Visuele Multi-turn Dialoog

Samenvatting

We introduceren InteractiveOmni, een uniform en open-source omni-modale grote taalmodellen voor audio-visuele multi-turn interactie, variërend van 4B tot 8B parameters, ontworpen om het veld van lichtgewicht modellen te leiden door uitgebreide omni-modale begrips- en spraakgeneratiecapaciteiten te bieden. Om dit te bereiken, integreren we de visie-encoder, audio-encoder, grote taalmodellen en spraakdecoder in een uniform model voor begrips- en generatietaken. We ontwerpen een meerfasige trainingsstrategie om robuuste cross-modale capaciteiten te waarborgen, inclusief pre-training voor omni-modale begripsvorming, gevolgd door post-training met spraakconversatie en audio-visuele interactie. Om een mensachtige langetermijnconversatievaardigheid mogelijk te maken, stellen we zorgvuldig een multi-turn trainingsdataset samen die het vermogen van het model om complexe en multi-turn interacties te verwerken versterkt. Om de multi-turn geheugen- en spraakinteractiecapaciteiten effectief te evalueren, construeren we de multi-modale multi-turn geheugenbenchmark en de multi-turn spraakinteractiebenchmark. Experimenten tonen aan dat InteractiveOmni aanzienlijk beter presteert dan toonaangevende open-source modellen en een intelligenter multi-turn audio-visuele ervaring biedt, met name in zijn langetermijngeheugencapaciteiten. Opmerkelijk is dat InteractiveOmni-4B vergelijkbaar is met veel grotere modellen zoals Qwen2.5-Omni-7B op algemene benchmarks, en het kan 97% van de prestaties van InteractiveOmni-8B behouden terwijl slechts 50% van de modelgrootte wordt gebruikt. Door state-of-the-art resultaten te behalen tegenover vergelijkbaar grote modellen op het gebied van beeld-, audio-, videobegrip en spraakgeneratietaken, is InteractiveOmni een toegankelijke, open-source basis voor de volgende generatie intelligente interactieve systemen.

English

We introduce InteractiveOmni, a unified and open-source omni-modal large language model for audio-visual multi-turn interaction, ranging from 4B to 8B parameters, designed to lead the field of lightweight models by offering comprehensive omni-modal understanding and speech generation capabilities. To achieve this, we integrate the vision encoder, audio encoder, large language model, and speech decoder into a unified model for understanding and generation tasks. We design a multi-stage training strategy to ensure robust cross-modal capabilities, including pre-training for omni-modal understanding, followed by post-training with speech conversation and audio-visual interaction. To enable human-like long-term conversational ability, we meticulously curate a multi-turn training dataset that enhances the model's ability to handle complex and multi-turn interactions. To effectively evaluate the multi-turn memory and speech interaction capabilities, we construct the multi-modal multi-turn memory benchmark and the multi-turn speech interaction benchmark. Experiments demonstrate that InteractiveOmni significantly outperforms leading open-source models and provides a more intelligent multi-turn audio-visual experience, particularly in its long-term memory capabilities. Notably, InteractiveOmni-4B is comparable to the much larger model like Qwen2.5-Omni-7B on general benchmarks, and it can retain 97% of the performance of the InteractiveOmni-8B while utilizing only 50% of the model size. Achieving state-of-the-art results against similarly sized models across image, audio, video understanding, and speech generation tasks, InteractiveOmni is an accessible, open-source foundation for next-generation intelligent interactive systems.

InteractiveOmni: Een Uniform Omni-modale Model voor Audio-Visuele Multi-turn Dialoog

InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue

Samenvatting

Support