Rapport Technique de Qwen2.5-Omni
Qwen2.5-Omni Technical Report
March 26, 2025
Auteurs: Jin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin
cs.AI
Résumé
Dans ce rapport, nous présentons Qwen2.5-Omni, un modèle multimodal de bout en bout conçu pour percevoir diverses modalités, incluant le texte, les images, l'audio et la vidéo, tout en générant simultanément des réponses textuelles et vocales naturelles de manière fluide. Pour permettre le traitement en flux des entrées d'informations multimodales, les encodeurs audio et visuels utilisent une approche de traitement par blocs. Pour synchroniser les timestamps des entrées vidéo avec l'audio, nous organisons l'audio et la vidéo de manière séquentielle et entrelacée, et proposons une nouvelle approche d'encodage de position, nommée TMRoPE (Time-aligned Multimodal RoPE). Pour générer simultanément du texte et de la parole tout en évitant les interférences entre ces deux modalités, nous proposons une architecture Thinker-Talker. Dans ce cadre, Thinker fonctionne comme un grand modèle de langage chargé de la génération de texte, tandis que Talker est un modèle autorégressif à double voie qui utilise directement les représentations cachées de Thinker pour produire des tokens audio en sortie. Les modèles Thinker et Talker sont conçus pour être entraînés et inférés de manière end-to-end. Pour décoder les tokens audio en flux continu, nous introduisons un DiT à fenêtre glissante qui limite le champ réceptif, visant à réduire le délai initial des paquets. Qwen2.5-Omni est comparable au Qwen2.5-VL de taille similaire et surpasse Qwen2-Audio. De plus, Qwen2.5-Omni atteint des performances de pointe sur des benchmarks multimodaux comme Omni-Bench. Notamment, les performances de Qwen2.5-Omni dans le suivi d'instructions vocales de bout en bout sont comparables à ses capacités avec des entrées textuelles, comme en témoignent les benchmarks tels que MMLU et GSM8K. En ce qui concerne la génération de parole, le Talker en flux de Qwen2.5-Omni surpasse la plupart des alternatives existantes, qu'elles soient en flux ou non, en termes de robustesse et de naturalité.
English
In this report, we present Qwen2.5-Omni, an end-to-end multimodal model
designed to perceive diverse modalities, including text, images, audio, and
video, while simultaneously generating text and natural speech responses in a
streaming manner. To enable the streaming of multimodal information inputs,
both audio and visual encoders utilize a block-wise processing approach. To
synchronize the timestamps of video inputs with audio, we organize the audio
and video sequentially in an interleaved manner and propose a novel position
embedding approach, named TMRoPE(Time-aligned Multimodal RoPE). To concurrently
generate text and speech while avoiding interference between the two
modalities, we propose Thinker-Talker architecture. In this framework,
Thinker functions as a large language model tasked with text generation, while
Talker is a dual-track autoregressive model that directly utilizes the hidden
representations from the Thinker to produce audio tokens as output. Both the
Thinker and Talker models are designed to be trained and inferred in an
end-to-end manner. For decoding audio tokens in a streaming manner, we
introduce a sliding-window DiT that restricts the receptive field, aiming to
reduce the initial package delay. Qwen2.5-Omni is comparable with the similarly
sized Qwen2.5-VL and outperforms Qwen2-Audio. Furthermore, Qwen2.5-Omni
achieves state-of-the-art performance on multimodal benchmarks like Omni-Bench.
Notably, Qwen2.5-Omni's performance in end-to-end speech instruction following
is comparable to its capabilities with text inputs, as evidenced by benchmarks
such as MMLU and GSM8K. As for speech generation, Qwen2.5-Omni's streaming
Talker outperforms most existing streaming and non-streaming alternatives in
robustness and naturalness.Summary
AI-Generated Summary