Qwen2.5-Omni Technisch RapportQwen2.5-Omni Technical Report
In dit rapport presenteren we Qwen2.5-Omni, een end-to-end multimodaal model dat ontworpen is om diverse modaliteiten waar te nemen, waaronder tekst, afbeeldingen, audio en video, terwijl het tegelijkertijd tekst en natuurlijke spraakreacties genereert op een streaming-manier. Om de streaming van multimodale informatie-inputs mogelijk te maken, gebruiken zowel audio- als visuele encoders een bloksgewijze verwerkingsaanpak. Om de tijdstempels van video-inputs te synchroniseren met audio, organiseren we de audio en video sequentieel in een interleaved manier en introduceren we een nieuwe positionele embedding-aanpak, genaamd TMRoPE (Time-aligned Multimodal RoPE). Om gelijktijdig tekst en spraak te genereren zonder interferentie tussen de twee modaliteiten, stellen we de Thinker-Talker-architectuur voor. In dit framework fungeert Thinker als een groot taalmodel dat verantwoordelijk is voor tekstgeneratie, terwijl Talker een dual-track autoregressief model is dat direct gebruikmaakt van de verborgen representaties van de Thinker om audiotokens als output te produceren. Zowel de Thinker- als de Talker-modellen zijn ontworpen om end-to-end getraind en geïnferreerd te worden. Voor het decoderen van audiotokens op een streaming-manier introduceren we een sliding-window DiT die het receptieve veld beperkt, met als doel de initiële pakketvertraging te verminderen. Qwen2.5-Omni is vergelijkbaar met de even grote Qwen2.5-VL en presteert beter dan Qwen2-Audio. Bovendien behaalt Qwen2.5-Omni state-of-the-art prestaties op multimodale benchmarks zoals Omni-Bench. Opmerkelijk is dat de prestaties van Qwen2.5-Omni in end-to-end spraakinstructievolgen vergelijkbaar zijn met zijn mogelijkheden bij tekstinputs, zoals blijkt uit benchmarks zoals MMLU en GSM8K. Wat betreft spraakgeneratie presteert de streaming Talker van Qwen2.5-Omni beter dan de meeste bestaande streaming en niet-streaming alternatieven in robuustheid en natuurlijkheid.