Omni-R1: 오디오 LLM을 미세 조정하려면 정말 오디오가 필요한가?
Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?
May 14, 2025
저자: Andrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass
cs.AI
초록
최근 다중 모달 LLM인 Qwen2.5-Omni를 오디오 질의응답 데이터셋에 GRPO 강화 학습 방법으로 미세 조정한 Omni-R1을 제안합니다. 이를 통해 최근 MMAU 벤치마크에서 새로운 최첨단 성능을 달성했습니다. Omni-R1은 Test-mini와 Test-full 분할 모두에서 사운드, 음악, 음성 및 전체 평균 카테고리에서 가장 높은 정확도를 보였습니다. 성능 향상을 이해하기 위해 오디오를 포함한 모델과 포함하지 않은 모델을 테스트한 결과, GRPO로 인한 성능 향상의 상당 부분이 텍스트 기반 추론의 개선에 기인함을 발견했습니다. 또한, 텍스트 전용 데이터셋에서 오디오 없이 미세 조정하는 것이 오디오 기반 성능을 개선하는 데 효과적이라는 놀라운 발견을 했습니다.
English
We propose Omni-R1 which fine-tunes a recent multi-modal LLM, Qwen2.5-Omni,
on an audio question answering dataset with the reinforcement learning method
GRPO. This leads to new State-of-the-Art performance on the recent MMAU
benchmark. Omni-R1 achieves the highest accuracies on the sounds, music,
speech, and overall average categories, both on the Test-mini and Test-full
splits. To understand the performance improvement, we tested models both with
and without audio and found that much of the performance improvement from GRPO
could be attributed to better text-based reasoning. We also made a surprising
discovery that fine-tuning without audio on a text-only dataset was effective
at improving the audio-based performance.Summary
AI-Generated Summary