Omni-R1: Действительно ли вам нужен звук для тонкой настройки вашей аудио-языковой модели?
Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?
May 14, 2025
Авторы: Andrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass
cs.AI
Аннотация
Мы представляем Omni-R1, который дообучает недавнюю мультимодальную языковую модель Qwen2.5-Omni на наборе данных для ответов на вопросы по аудио с использованием метода обучения с подкреплением GRPO. Это приводит к новому рекордному результату на недавнем бенчмарке MMAU. Omni-R1 достигает наивысшей точности в категориях звуков, музыки, речи и общего среднего значения как на подмножествах Test-mini, так и на Test-full. Чтобы понять причины улучшения производительности, мы протестировали модели как с аудио, так и без него, и обнаружили, что значительная часть улучшения от GRPO может быть связана с более качественным текстовым рассуждением. Мы также сделали неожиданное открытие: дообучение без аудио на текстовом наборе данных оказалось эффективным для улучшения производительности на аудио-задачах.
English
We propose Omni-R1 which fine-tunes a recent multi-modal LLM, Qwen2.5-Omni,
on an audio question answering dataset with the reinforcement learning method
GRPO. This leads to new State-of-the-Art performance on the recent MMAU
benchmark. Omni-R1 achieves the highest accuracies on the sounds, music,
speech, and overall average categories, both on the Test-mini and Test-full
splits. To understand the performance improvement, we tested models both with
and without audio and found that much of the performance improvement from GRPO
could be attributed to better text-based reasoning. We also made a surprising
discovery that fine-tuning without audio on a text-only dataset was effective
at improving the audio-based performance.Summary
AI-Generated Summary