ChatPaper.aiChatPaper

Avanzando en la comprensión del habla en modelos de lenguaje conscientes del habla con GRPO

Advancing Speech Understanding in Speech-Aware Language Models with GRPO

September 21, 2025
Autores: Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, Eli Schwartz, Ron Hoory, Avihu Dekel
cs.AI

Resumen

En este artículo, presentamos un método basado en Optimización de Políticas Relativas de Grupo (GRPO, por sus siglas en inglés) para entrenar Modelos de Lenguaje de Gran Escala Conscientes del Habla (SALLMs, por sus siglas en inglés) en tareas de comprensión de habla de formato abierto, como Respuesta a Preguntas Habladas y Traducción Automática de Habla. Los SALLMs han demostrado ser altamente efectivos para tareas de comprensión del habla. GRPO ha ganado recientemente popularidad por su eficiencia en el entrenamiento de LLMs, y trabajos previos han explorado su aplicación a SALLMs, principalmente en tareas de opción múltiple. Basándonos en esto, nos enfocamos en tareas de formato abierto que reflejan mejor las habilidades generativas de los modelos. Nuestro enfoque aprovecha GRPO con BLEU como señal de recompensa para optimizar SALLMs, y demostramos empíricamente que supera al Ajuste Superficial Estándar (SFT) en varias métricas clave. Finalmente, exploramos el potencial de incorporar muestras fuera de la política dentro de GRPO para estas tareas, destacando vías para futuras mejoras e investigaciones adicionales.
English
In this paper, we introduce a Group Relative Policy Optimization (GRPO)-based method for training Speech-Aware Large Language Models (SALLMs) on open-format speech understanding tasks, such as Spoken Question Answering and Automatic Speech Translation. SALLMs have proven highly effective for speech understanding tasks. GRPO has recently gained traction for its efficiency in training LLMs, and prior work has explored its application to SALLMs, primarily in multiple-choice tasks. Building on this, we focus on open-format tasks that better reflect the generative abilities of the models. Our approach leverages GRPO with BLEU as the reward signal to optimize SALLMs, and we demonstrate empirically that it surpasses standard SFT across several key metrics. Finally, we explore the potential of incorporating off-policy samples within GRPO for these tasks, highlighting avenues for further improvement and further research.
PDF142September 25, 2025