Omni-R1: 音声LLMのファインチューニングに本当に音声データは必要か?
Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?
May 14, 2025
著者: Andrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass
cs.AI
要旨
我々は、最近のマルチモーダルLLMであるQwen2.5-Omniを、強化学習手法GRPOを用いて音声質問応答データセットでファインチューニングしたOmni-R1を提案する。これにより、最新のMMAUベンチマークにおいて新たなState-of-the-Art性能を達成した。Omni-R1は、Test-miniとTest-fullの両スプリットにおいて、音響、音楽、音声、および全体平均のカテゴリで最高の精度を記録した。性能向上の要因を理解するため、音声ありとなしの両方のモデルをテストし、GRPOによる性能向上の多くがテキストベースの推論の改善に起因することを明らかにした。また、音声なしでテキストのみのデータセットでファインチューニングを行うことが、音声ベースの性能向上に有効であるという驚くべき発見も得られた。
English
We propose Omni-R1 which fine-tunes a recent multi-modal LLM, Qwen2.5-Omni,
on an audio question answering dataset with the reinforcement learning method
GRPO. This leads to new State-of-the-Art performance on the recent MMAU
benchmark. Omni-R1 achieves the highest accuracies on the sounds, music,
speech, and overall average categories, both on the Test-mini and Test-full
splits. To understand the performance improvement, we tested models both with
and without audio and found that much of the performance improvement from GRPO
could be attributed to better text-based reasoning. We also made a surprising
discovery that fine-tuning without audio on a text-only dataset was effective
at improving the audio-based performance.Summary
AI-Generated Summary