Omni-R1: Hai davvero bisogno dell'audio per ottimizzare il tuo LLM audio?
Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?
May 14, 2025
Autori: Andrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass
cs.AI
Abstract
Proponiamo Omni-R1, che effettua il fine-tuning di un recente modello linguistico multimodale, Qwen2.5-Omni, su un dataset di risposte a domande audio utilizzando il metodo di apprendimento per rinforzo GRPO. Ciò porta a nuove prestazioni State-of-the-Art sul recente benchmark MMAU. Omni-R1 raggiunge le più alte accuratezze nelle categorie suoni, musica, parlato e media complessiva, sia nelle suddivisioni Test-mini che Test-full. Per comprendere il miglioramento delle prestazioni, abbiamo testato i modelli sia con che senza audio e abbiamo scoperto che gran parte del miglioramento ottenuto con GRPO potrebbe essere attribuito a un ragionamento basato su testo più efficace. Abbiamo anche fatto una scoperta sorprendente: il fine-tuning senza audio su un dataset esclusivamente testuale si è rivelato efficace nel migliorare le prestazioni basate sull'audio.
English
We propose Omni-R1 which fine-tunes a recent multi-modal LLM, Qwen2.5-Omni,
on an audio question answering dataset with the reinforcement learning method
GRPO. This leads to new State-of-the-Art performance on the recent MMAU
benchmark. Omni-R1 achieves the highest accuracies on the sounds, music,
speech, and overall average categories, both on the Test-mini and Test-full
splits. To understand the performance improvement, we tested models both with
and without audio and found that much of the performance improvement from GRPO
could be attributed to better text-based reasoning. We also made a surprising
discovery that fine-tuning without audio on a text-only dataset was effective
at improving the audio-based performance.