Omni-R1 : Avez-vous vraiment besoin de l'audio pour affiner votre modèle de langage audio ?
Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?
May 14, 2025
Auteurs: Andrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass
cs.AI
Résumé
Nous proposons Omni-R1, qui affine un modèle de langage multimodal récent, Qwen2.5-Omni, sur un ensemble de données de questions-réponses audio en utilisant la méthode d'apprentissage par renforcement GRPO. Cela conduit à de nouvelles performances de pointe sur le récent benchmark MMAU. Omni-R1 atteint les plus hautes précisions dans les catégories des sons, de la musique, de la parole et de la moyenne globale, à la fois sur les divisions Test-mini et Test-full. Pour comprendre l'amélioration des performances, nous avons testé des modèles avec et sans audio et avons constaté qu'une grande partie de l'amélioration due à GRPO pouvait être attribuée à un meilleur raisonnement basé sur le texte. Nous avons également fait une découverte surprenante : l'affinage sans audio sur un ensemble de données textuel uniquement s'est avéré efficace pour améliorer les performances basées sur l'audio.
English
We propose Omni-R1 which fine-tunes a recent multi-modal LLM, Qwen2.5-Omni,
on an audio question answering dataset with the reinforcement learning method
GRPO. This leads to new State-of-the-Art performance on the recent MMAU
benchmark. Omni-R1 achieves the highest accuracies on the sounds, music,
speech, and overall average categories, both on the Test-mini and Test-full
splits. To understand the performance improvement, we tested models both with
and without audio and found that much of the performance improvement from GRPO
could be attributed to better text-based reasoning. We also made a surprising
discovery that fine-tuning without audio on a text-only dataset was effective
at improving the audio-based performance.Summary
AI-Generated Summary