Qwen2.5-Omni Technisch Rapport

Samenvatting

In dit rapport presenteren we Qwen2.5-Omni, een end-to-end multimodaal model dat ontworpen is om diverse modaliteiten waar te nemen, waaronder tekst, afbeeldingen, audio en video, terwijl het tegelijkertijd tekst en natuurlijke spraakreacties genereert op een streaming-manier. Om de streaming van multimodale informatie-inputs mogelijk te maken, gebruiken zowel audio- als visuele encoders een bloksgewijze verwerkingsaanpak. Om de tijdstempels van video-inputs te synchroniseren met audio, organiseren we de audio en video sequentieel in een interleaved manier en introduceren we een nieuwe positionele embedding-aanpak, genaamd TMRoPE (Time-aligned Multimodal RoPE). Om gelijktijdig tekst en spraak te genereren zonder interferentie tussen de twee modaliteiten, stellen we de Thinker-Talker-architectuur voor. In dit framework fungeert Thinker als een groot taalmodel dat verantwoordelijk is voor tekstgeneratie, terwijl Talker een dual-track autoregressief model is dat direct gebruikmaakt van de verborgen representaties van de Thinker om audiotokens als output te produceren. Zowel de Thinker- als de Talker-modellen zijn ontworpen om end-to-end getraind en geïnferreerd te worden. Voor het decoderen van audiotokens op een streaming-manier introduceren we een sliding-window DiT die het receptieve veld beperkt, met als doel de initiële pakketvertraging te verminderen. Qwen2.5-Omni is vergelijkbaar met de even grote Qwen2.5-VL en presteert beter dan Qwen2-Audio. Bovendien behaalt Qwen2.5-Omni state-of-the-art prestaties op multimodale benchmarks zoals Omni-Bench. Opmerkelijk is dat de prestaties van Qwen2.5-Omni in end-to-end spraakinstructievolgen vergelijkbaar zijn met zijn mogelijkheden bij tekstinputs, zoals blijkt uit benchmarks zoals MMLU en GSM8K. Wat betreft spraakgeneratie presteert de streaming Talker van Qwen2.5-Omni beter dan de meeste bestaande streaming en niet-streaming alternatieven in robuustheid en natuurlijkheid.

English

In this report, we present Qwen2.5-Omni, an end-to-end multimodal model designed to perceive diverse modalities, including text, images, audio, and video, while simultaneously generating text and natural speech responses in a streaming manner. To enable the streaming of multimodal information inputs, both audio and visual encoders utilize a block-wise processing approach. To synchronize the timestamps of video inputs with audio, we organize the audio and video sequentially in an interleaved manner and propose a novel position embedding approach, named TMRoPE(Time-aligned Multimodal RoPE). To concurrently generate text and speech while avoiding interference between the two modalities, we propose Thinker-Talker architecture. In this framework, Thinker functions as a large language model tasked with text generation, while Talker is a dual-track autoregressive model that directly utilizes the hidden representations from the Thinker to produce audio tokens as output. Both the Thinker and Talker models are designed to be trained and inferred in an end-to-end manner. For decoding audio tokens in a streaming manner, we introduce a sliding-window DiT that restricts the receptive field, aiming to reduce the initial package delay. Qwen2.5-Omni is comparable with the similarly sized Qwen2.5-VL and outperforms Qwen2-Audio. Furthermore, Qwen2.5-Omni achieves state-of-the-art performance on multimodal benchmarks like Omni-Bench. Notably, Qwen2.5-Omni's performance in end-to-end speech instruction following is comparable to its capabilities with text inputs, as evidenced by benchmarks such as MMLU and GSM8K. As for speech generation, Qwen2.5-Omni's streaming Talker outperforms most existing streaming and non-streaming alternatives in robustness and naturalness.

Qwen2.5-Omni Technisch Rapport

Qwen2.5-Omni Technical Report

Samenvatting

Support