Relatório Técnico do Qwen2.5-OmniQwen2.5-Omni Technical Report
Neste relatório, apresentamos o Qwen2.5-Omni, um modelo multimodal de ponta a ponta projetado para perceber diversas modalidades, incluindo texto, imagens, áudio e vídeo, enquanto gera respostas em texto e fala natural de forma contínua. Para permitir o processamento contínuo de entradas multimodais, tanto os codificadores de áudio quanto os visuais utilizam uma abordagem de processamento em blocos. Para sincronizar os timestamps das entradas de vídeo com o áudio, organizamos o áudio e o vídeo sequencialmente de forma intercalada e propomos uma nova abordagem de incorporação de posição, denominada TMRoPE (Time-aligned Multimodal RoPE). Para gerar texto e fala simultaneamente, evitando interferências entre as duas modalidades, propomos a arquitetura Thinker-Talker. Neste framework, o Thinker funciona como um grande modelo de linguagem responsável pela geração de texto, enquanto o Talker é um modelo autoregressivo de dupla via que utiliza diretamente as representações ocultas do Thinker para produzir tokens de áudio como saída. Tanto o Thinker quanto o Talker são projetados para serem treinados e inferidos de forma end-to-end. Para decodificar tokens de áudio de forma contínua, introduzimos um DiT de janela deslizante que restringe o campo receptivo, visando reduzir o atraso inicial do pacote. O Qwen2.5-Omni é comparável ao Qwen2.5-VL de tamanho similar e supera o Qwen2-Audio. Além disso, o Qwen2.5-Omni alcança desempenho de ponta em benchmarks multimodais como o Omni-Bench. Notavelmente, o desempenho do Qwen2.5-Omni na execução de instruções de fala end-to-end é comparável às suas capacidades com entradas de texto, conforme evidenciado por benchmarks como MMLU e GSM8K. Quanto à geração de fala, o Talker contínuo do Qwen2.5-Omni supera a maioria das alternativas existentes, tanto contínuas quanto não contínuas, em robustez e naturalidade.