Rapport Technique de Qwen2.5-OmniQwen2.5-Omni Technical Report
Dans ce rapport, nous présentons Qwen2.5-Omni, un modèle multimodal de bout en bout conçu pour percevoir diverses modalités, incluant le texte, les images, l'audio et la vidéo, tout en générant simultanément des réponses textuelles et vocales naturelles de manière fluide. Pour permettre le traitement en flux des entrées d'informations multimodales, les encodeurs audio et visuels utilisent une approche de traitement par blocs. Pour synchroniser les timestamps des entrées vidéo avec l'audio, nous organisons l'audio et la vidéo de manière séquentielle et entrelacée, et proposons une nouvelle approche d'encodage de position, nommée TMRoPE (Time-aligned Multimodal RoPE). Pour générer simultanément du texte et de la parole tout en évitant les interférences entre ces deux modalités, nous proposons une architecture Thinker-Talker. Dans ce cadre, Thinker fonctionne comme un grand modèle de langage chargé de la génération de texte, tandis que Talker est un modèle autorégressif à double voie qui utilise directement les représentations cachées de Thinker pour produire des tokens audio en sortie. Les modèles Thinker et Talker sont conçus pour être entraînés et inférés de manière end-to-end. Pour décoder les tokens audio en flux continu, nous introduisons un DiT à fenêtre glissante qui limite le champ réceptif, visant à réduire le délai initial des paquets. Qwen2.5-Omni est comparable au Qwen2.5-VL de taille similaire et surpasse Qwen2-Audio. De plus, Qwen2.5-Omni atteint des performances de pointe sur des benchmarks multimodaux comme Omni-Bench. Notamment, les performances de Qwen2.5-Omni dans le suivi d'instructions vocales de bout en bout sont comparables à ses capacités avec des entrées textuelles, comme en témoignent les benchmarks tels que MMLU et GSM8K. En ce qui concerne la génération de parole, le Talker en flux de Qwen2.5-Omni surpasse la plupart des alternatives existantes, qu'elles soient en flux ou non, en termes de robustesse et de naturalité.