ChatPaper.aiChatPaper

Omni-R1: 音声LLMのファインチューニングに本当に音声データは必要か?

Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?

May 14, 2025
著者: Andrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass
cs.AI

要旨

我々は、最近のマルチモーダルLLMであるQwen2.5-Omniを、強化学習手法GRPOを用いて音声質問応答データセットでファインチューニングしたOmni-R1を提案する。これにより、最新のMMAUベンチマークにおいて新たなState-of-the-Art性能を達成した。Omni-R1は、Test-miniとTest-fullの両スプリットにおいて、音響、音楽、音声、および全体平均のカテゴリで最高の精度を記録した。性能向上の要因を理解するため、音声ありとなしの両方のモデルをテストし、GRPOによる性能向上の多くがテキストベースの推論の改善に起因することを明らかにした。また、音声なしでテキストのみのデータセットでファインチューニングを行うことが、音声ベースの性能向上に有効であるという驚くべき発見も得られた。
English
We propose Omni-R1 which fine-tunes a recent multi-modal LLM, Qwen2.5-Omni, on an audio question answering dataset with the reinforcement learning method GRPO. This leads to new State-of-the-Art performance on the recent MMAU benchmark. Omni-R1 achieves the highest accuracies on the sounds, music, speech, and overall average categories, both on the Test-mini and Test-full splits. To understand the performance improvement, we tested models both with and without audio and found that much of the performance improvement from GRPO could be attributed to better text-based reasoning. We also made a surprising discovery that fine-tuning without audio on a text-only dataset was effective at improving the audio-based performance.

Summary

AI-Generated Summary

PDF42May 15, 2025