Avançando na Compreensão de Fala em Modelos de Linguagem Conscientes da Fala com GRPO
Advancing Speech Understanding in Speech-Aware Language Models with GRPO
September 21, 2025
Autores: Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, Eli Schwartz, Ron Hoory, Avihu Dekel
cs.AI
Resumo
Neste artigo, apresentamos um método baseado em Otimização de Política Relativa de Grupo (Group Relative Policy Optimization - GRPO) para treinar Modelos de Linguagem de Grande Escala com Consciência de Fala (Speech-Aware Large Language Models - SALLMs) em tarefas de compreensão de fala de formato aberto, como Resposta a Perguntas em Fala e Tradução Automática de Fala. Os SALLMs têm se mostrado altamente eficazes para tarefas de compreensão de fala. O GRPO recentemente ganhou destaque por sua eficiência no treinamento de LLMs, e trabalhos anteriores exploraram sua aplicação em SALLMs, principalmente em tarefas de múltipla escolha. Com base nisso, focamos em tarefas de formato aberto que melhor refletem as habilidades gerativas dos modelos. Nossa abordagem utiliza o GRPO com BLEU como sinal de recompensa para otimizar os SALLMs, e demonstramos empiricamente que ele supera o Fine-Tuning Supervisionado Padrão (Standard Fine-Tuning - SFT) em várias métricas-chave. Por fim, exploramos o potencial de incorporar amostras fora da política (off-policy) dentro do GRPO para essas tarefas, destacando caminhos para melhorias adicionais e pesquisas futuras.
English
In this paper, we introduce a Group Relative Policy Optimization (GRPO)-based
method for training Speech-Aware Large Language Models (SALLMs) on open-format
speech understanding tasks, such as Spoken Question Answering and Automatic
Speech Translation. SALLMs have proven highly effective for speech
understanding tasks. GRPO has recently gained traction for its efficiency in
training LLMs, and prior work has explored its application to SALLMs, primarily
in multiple-choice tasks. Building on this, we focus on open-format tasks that
better reflect the generative abilities of the models. Our approach leverages
GRPO with BLEU as the reward signal to optimize SALLMs, and we demonstrate
empirically that it surpasses standard SFT across several key metrics. Finally,
we explore the potential of incorporating off-policy samples within GRPO for
these tasks, highlighting avenues for further improvement and further research.