Avanzando en la comprensión del habla en modelos de lenguaje conscientes del habla con GRPO
Advancing Speech Understanding in Speech-Aware Language Models with GRPO
September 21, 2025
Autores: Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, Eli Schwartz, Ron Hoory, Avihu Dekel
cs.AI
Resumen
En este artículo, presentamos un método basado en Optimización de Políticas Relativas de Grupo (GRPO, por sus siglas en inglés) para entrenar Modelos de Lenguaje de Gran Escala Conscientes del Habla (SALLMs, por sus siglas en inglés) en tareas de comprensión de habla de formato abierto, como Respuesta a Preguntas Habladas y Traducción Automática de Habla. Los SALLMs han demostrado ser altamente efectivos para tareas de comprensión del habla. GRPO ha ganado recientemente popularidad por su eficiencia en el entrenamiento de LLMs, y trabajos previos han explorado su aplicación a SALLMs, principalmente en tareas de opción múltiple. Basándonos en esto, nos enfocamos en tareas de formato abierto que reflejan mejor las habilidades generativas de los modelos. Nuestro enfoque aprovecha GRPO con BLEU como señal de recompensa para optimizar SALLMs, y demostramos empíricamente que supera al Ajuste Superficial Estándar (SFT) en varias métricas clave. Finalmente, exploramos el potencial de incorporar muestras fuera de la política dentro de GRPO para estas tareas, destacando vías para futuras mejoras e investigaciones adicionales.
English
In this paper, we introduce a Group Relative Policy Optimization (GRPO)-based
method for training Speech-Aware Large Language Models (SALLMs) on open-format
speech understanding tasks, such as Spoken Question Answering and Automatic
Speech Translation. SALLMs have proven highly effective for speech
understanding tasks. GRPO has recently gained traction for its efficiency in
training LLMs, and prior work has explored its application to SALLMs, primarily
in multiple-choice tasks. Building on this, we focus on open-format tasks that
better reflect the generative abilities of the models. Our approach leverages
GRPO with BLEU as the reward signal to optimize SALLMs, and we demonstrate
empirically that it surpasses standard SFT across several key metrics. Finally,
we explore the potential of incorporating off-policy samples within GRPO for
these tasks, highlighting avenues for further improvement and further research.