Rapporto Tecnico di Qwen2.5-OmniQwen2.5-Omni Technical Report
In questo rapporto presentiamo Qwen2.5-Omni, un modello multimodale end-to-end progettato per percepire diverse modalità, tra cui testo, immagini, audio e video, generando simultaneamente risposte in testo e linguaggio naturale in modalità streaming. Per abilitare lo streaming degli input di informazioni multimodali, sia gli encoder audio che quelli visivi utilizzano un approccio di elaborazione a blocchi. Per sincronizzare i timestamp degli input video con l'audio, organizziamo l'audio e il video in modo sequenziale e intercalato, proponendo un nuovo approccio di embedding posizionale denominato TMRoPE (Time-aligned Multimodal RoPE). Per generare contemporaneamente testo e parlato evitando interferenze tra le due modalità, proponiamo l'architettura Thinker-Talker. In questo framework, Thinker funziona come un modello linguistico di grandi dimensioni incaricato della generazione del testo, mentre Talker è un modello autoregressivo a doppio binario che utilizza direttamente le rappresentazioni nascoste di Thinker per produrre token audio come output. Sia il modello Thinker che Talker sono progettati per essere addestrati e inferiti in modalità end-to-end. Per decodificare i token audio in modalità streaming, introduciamo un DiT a finestra scorrevole che limita il campo recettivo, con l'obiettivo di ridurre il ritardo iniziale del pacchetto. Qwen2.5-Omni è paragonabile a Qwen2.5-VL di dimensioni simili e supera Qwen2-Audio. Inoltre, Qwen2.5-Omni raggiunge prestazioni all'avanguardia su benchmark multimodali come Omni-Bench. È degno di nota che le prestazioni di Qwen2.5-Omni nel seguire istruzioni vocali end-to-end siano paragonabili alle sue capacità con input di testo, come dimostrato da benchmark come MMLU e GSM8K. Per quanto riguarda la generazione del parlato, il Talker in streaming di Qwen2.5-Omni supera la maggior parte delle alternative esistenti, sia in streaming che non, in termini di robustezza e naturalezza.