Omni-R1: Você Realmente Precisa de Áudio para Ajustar Fino Seu LLM de Áudio?
Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?
May 14, 2025
Autores: Andrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass
cs.AI
Resumo
Propomos o Omni-R1, que ajusta finamente um recente modelo de linguagem multimodal, o Qwen2.5-Omni, em um conjunto de dados de perguntas e respostas de áudio utilizando o método de aprendizado por reforço GRPO. Isso resulta em um novo desempenho de última geração no recente benchmark MMAU. O Omni-R1 alcança as maiores taxas de precisão nas categorias de sons, música, fala e média geral, tanto nas divisões Test-mini quanto Test-full. Para compreender a melhoria de desempenho, testamos modelos com e sem áudio e descobrimos que grande parte da melhoria de desempenho do GRPO pode ser atribuída a um raciocínio baseado em texto mais eficaz. Também fizemos uma descoberta surpreendente: o ajuste fino sem áudio em um conjunto de dados apenas de texto foi eficaz para melhorar o desempenho baseado em áudio.
English
We propose Omni-R1 which fine-tunes a recent multi-modal LLM, Qwen2.5-Omni,
on an audio question answering dataset with the reinforcement learning method
GRPO. This leads to new State-of-the-Art performance on the recent MMAU
benchmark. Omni-R1 achieves the highest accuracies on the sounds, music,
speech, and overall average categories, both on the Test-mini and Test-full
splits. To understand the performance improvement, we tested models both with
and without audio and found that much of the performance improvement from GRPO
could be attributed to better text-based reasoning. We also made a surprising
discovery that fine-tuning without audio on a text-only dataset was effective
at improving the audio-based performance.