ChatPaper.aiChatPaper

Omni-R1: Brauchen Sie wirklich Audio, um Ihr Audio-LLM zu feinabstimmen?

Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?

May 14, 2025
Autoren: Andrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass
cs.AI

Zusammenfassung

Wir stellen Omni-R1 vor, das ein kürzlich entwickeltes multimodales LLM, Qwen2.5-Omni, auf einem Audio-Frage-Antwort-Datensatz mit der Reinforcement-Learning-Methode GRPO feinabstimmt. Dies führt zu einer neuen State-of-the-Art-Leistung auf dem aktuellen MMAU-Benchmark. Omni-R1 erzielt die höchsten Genauigkeiten in den Kategorien Klänge, Musik, Sprache und dem Gesamtdurchschnitt, sowohl bei den Test-mini- als auch bei den Test-full-Aufteilungen. Um die Leistungsverbesserung zu verstehen, testeten wir Modelle sowohl mit als auch ohne Audio und stellten fest, dass ein Großteil der Leistungssteigerung durch GRPO auf eine bessere textbasierte Argumentation zurückzuführen ist. Wir machten auch die überraschende Entdeckung, dass das Feinabstimmen ohne Audio auf einem rein textbasierten Datensatz effektiv war, um die audio-basierte Leistung zu verbessern.
English
We propose Omni-R1 which fine-tunes a recent multi-modal LLM, Qwen2.5-Omni, on an audio question answering dataset with the reinforcement learning method GRPO. This leads to new State-of-the-Art performance on the recent MMAU benchmark. Omni-R1 achieves the highest accuracies on the sounds, music, speech, and overall average categories, both on the Test-mini and Test-full splits. To understand the performance improvement, we tested models both with and without audio and found that much of the performance improvement from GRPO could be attributed to better text-based reasoning. We also made a surprising discovery that fine-tuning without audio on a text-only dataset was effective at improving the audio-based performance.

Summary

AI-Generated Summary

PDF42May 15, 2025