ChatPaper.aiChatPaper

Omni-R1: ¿Realmente necesitas audio para afinar tu modelo de lenguaje de audio?

Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?

May 14, 2025
Autores: Andrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass
cs.AI

Resumen

Proponemos Omni-R1, que ajusta un modelo de lenguaje multimodal reciente, Qwen2.5-Omni, en un conjunto de datos de preguntas y respuestas de audio utilizando el método de aprendizaje por refuerzo GRPO. Esto resulta en un nuevo rendimiento de vanguardia en el reciente benchmark MMAU. Omni-R1 logra las mayores precisiones en las categorías de sonidos, música, habla y promedio general, tanto en las divisiones Test-mini como Test-full. Para comprender la mejora en el rendimiento, probamos modelos con y sin audio y descubrimos que gran parte de la mejora atribuible a GRPO podría deberse a un razonamiento basado en texto más efectivo. También hicimos un descubrimiento sorprendente: el ajuste fino sin audio en un conjunto de datos exclusivamente textual fue efectivo para mejorar el rendimiento basado en audio.
English
We propose Omni-R1 which fine-tunes a recent multi-modal LLM, Qwen2.5-Omni, on an audio question answering dataset with the reinforcement learning method GRPO. This leads to new State-of-the-Art performance on the recent MMAU benchmark. Omni-R1 achieves the highest accuracies on the sounds, music, speech, and overall average categories, both on the Test-mini and Test-full splits. To understand the performance improvement, we tested models both with and without audio and found that much of the performance improvement from GRPO could be attributed to better text-based reasoning. We also made a surprising discovery that fine-tuning without audio on a text-only dataset was effective at improving the audio-based performance.

Summary

AI-Generated Summary

PDF42May 15, 2025