Qwen2.5-Omni Technisch Rapport
Qwen2.5-Omni Technical Report
March 26, 2025
Auteurs: Jin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin
cs.AI
Samenvatting
In dit rapport presenteren we Qwen2.5-Omni, een end-to-end multimodaal model dat ontworpen is om diverse modaliteiten waar te nemen, waaronder tekst, afbeeldingen, audio en video, terwijl het tegelijkertijd tekst en natuurlijke spraakreacties genereert op een streaming-manier. Om de streaming van multimodale informatie-inputs mogelijk te maken, gebruiken zowel audio- als visuele encoders een bloksgewijze verwerkingsaanpak. Om de tijdstempels van video-inputs te synchroniseren met audio, organiseren we de audio en video sequentieel in een interleaved manier en introduceren we een nieuwe positionele embedding-aanpak, genaamd TMRoPE (Time-aligned Multimodal RoPE). Om gelijktijdig tekst en spraak te genereren zonder interferentie tussen de twee modaliteiten, stellen we de Thinker-Talker-architectuur voor. In dit framework fungeert Thinker als een groot taalmodel dat verantwoordelijk is voor tekstgeneratie, terwijl Talker een dual-track autoregressief model is dat direct gebruikmaakt van de verborgen representaties van de Thinker om audiotokens als output te produceren. Zowel de Thinker- als de Talker-modellen zijn ontworpen om end-to-end getraind en geïnferreerd te worden. Voor het decoderen van audiotokens op een streaming-manier introduceren we een sliding-window DiT die het receptieve veld beperkt, met als doel de initiële pakketvertraging te verminderen. Qwen2.5-Omni is vergelijkbaar met de even grote Qwen2.5-VL en presteert beter dan Qwen2-Audio. Bovendien behaalt Qwen2.5-Omni state-of-the-art prestaties op multimodale benchmarks zoals Omni-Bench. Opmerkelijk is dat de prestaties van Qwen2.5-Omni in end-to-end spraakinstructievolgen vergelijkbaar zijn met zijn mogelijkheden bij tekstinputs, zoals blijkt uit benchmarks zoals MMLU en GSM8K. Wat betreft spraakgeneratie presteert de streaming Talker van Qwen2.5-Omni beter dan de meeste bestaande streaming en niet-streaming alternatieven in robuustheid en natuurlijkheid.
English
In this report, we present Qwen2.5-Omni, an end-to-end multimodal model
designed to perceive diverse modalities, including text, images, audio, and
video, while simultaneously generating text and natural speech responses in a
streaming manner. To enable the streaming of multimodal information inputs,
both audio and visual encoders utilize a block-wise processing approach. To
synchronize the timestamps of video inputs with audio, we organize the audio
and video sequentially in an interleaved manner and propose a novel position
embedding approach, named TMRoPE(Time-aligned Multimodal RoPE). To concurrently
generate text and speech while avoiding interference between the two
modalities, we propose Thinker-Talker architecture. In this framework,
Thinker functions as a large language model tasked with text generation, while
Talker is a dual-track autoregressive model that directly utilizes the hidden
representations from the Thinker to produce audio tokens as output. Both the
Thinker and Talker models are designed to be trained and inferred in an
end-to-end manner. For decoding audio tokens in a streaming manner, we
introduce a sliding-window DiT that restricts the receptive field, aiming to
reduce the initial package delay. Qwen2.5-Omni is comparable with the similarly
sized Qwen2.5-VL and outperforms Qwen2-Audio. Furthermore, Qwen2.5-Omni
achieves state-of-the-art performance on multimodal benchmarks like Omni-Bench.
Notably, Qwen2.5-Omni's performance in end-to-end speech instruction following
is comparable to its capabilities with text inputs, as evidenced by benchmarks
such as MMLU and GSM8K. As for speech generation, Qwen2.5-Omni's streaming
Talker outperforms most existing streaming and non-streaming alternatives in
robustness and naturalness.Summary
AI-Generated Summary