Omni-R1 : Avez-vous vraiment besoin de l'audio pour affiner votre modèle de langage audio ?

Résumé

Nous proposons Omni-R1, qui affine un modèle de langage multimodal récent, Qwen2.5-Omni, sur un ensemble de données de questions-réponses audio en utilisant la méthode d'apprentissage par renforcement GRPO. Cela conduit à de nouvelles performances de pointe sur le récent benchmark MMAU. Omni-R1 atteint les plus hautes précisions dans les catégories des sons, de la musique, de la parole et de la moyenne globale, à la fois sur les divisions Test-mini et Test-full. Pour comprendre l'amélioration des performances, nous avons testé des modèles avec et sans audio et avons constaté qu'une grande partie de l'amélioration due à GRPO pouvait être attribuée à un meilleur raisonnement basé sur le texte. Nous avons également fait une découverte surprenante : l'affinage sans audio sur un ensemble de données textuel uniquement s'est avéré efficace pour améliorer les performances basées sur l'audio.

English

We propose Omni-R1 which fine-tunes a recent multi-modal LLM, Qwen2.5-Omni, on an audio question answering dataset with the reinforcement learning method GRPO. This leads to new State-of-the-Art performance on the recent MMAU benchmark. Omni-R1 achieves the highest accuracies on the sounds, music, speech, and overall average categories, both on the Test-mini and Test-full splits. To understand the performance improvement, we tested models both with and without audio and found that much of the performance improvement from GRPO could be attributed to better text-based reasoning. We also made a surprising discovery that fine-tuning without audio on a text-only dataset was effective at improving the audio-based performance.

Omni-R1 : Avez-vous vraiment besoin de l'audio pour affiner votre modèle de langage audio ?

Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?

Résumé

Support