ChatPaper.aiChatPaper

Avançando na Compreensão de Fala em Modelos de Linguagem Conscientes da Fala com GRPO

Advancing Speech Understanding in Speech-Aware Language Models with GRPO

September 21, 2025
Autores: Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, Eli Schwartz, Ron Hoory, Avihu Dekel
cs.AI

Resumo

Neste artigo, apresentamos um método baseado em Otimização de Política Relativa de Grupo (Group Relative Policy Optimization - GRPO) para treinar Modelos de Linguagem de Grande Escala com Consciência de Fala (Speech-Aware Large Language Models - SALLMs) em tarefas de compreensão de fala de formato aberto, como Resposta a Perguntas em Fala e Tradução Automática de Fala. Os SALLMs têm se mostrado altamente eficazes para tarefas de compreensão de fala. O GRPO recentemente ganhou destaque por sua eficiência no treinamento de LLMs, e trabalhos anteriores exploraram sua aplicação em SALLMs, principalmente em tarefas de múltipla escolha. Com base nisso, focamos em tarefas de formato aberto que melhor refletem as habilidades gerativas dos modelos. Nossa abordagem utiliza o GRPO com BLEU como sinal de recompensa para otimizar os SALLMs, e demonstramos empiricamente que ele supera o Fine-Tuning Supervisionado Padrão (Standard Fine-Tuning - SFT) em várias métricas-chave. Por fim, exploramos o potencial de incorporar amostras fora da política (off-policy) dentro do GRPO para essas tarefas, destacando caminhos para melhorias adicionais e pesquisas futuras.
English
In this paper, we introduce a Group Relative Policy Optimization (GRPO)-based method for training Speech-Aware Large Language Models (SALLMs) on open-format speech understanding tasks, such as Spoken Question Answering and Automatic Speech Translation. SALLMs have proven highly effective for speech understanding tasks. GRPO has recently gained traction for its efficiency in training LLMs, and prior work has explored its application to SALLMs, primarily in multiple-choice tasks. Building on this, we focus on open-format tasks that better reflect the generative abilities of the models. Our approach leverages GRPO with BLEU as the reward signal to optimize SALLMs, and we demonstrate empirically that it surpasses standard SFT across several key metrics. Finally, we explore the potential of incorporating off-policy samples within GRPO for these tasks, highlighting avenues for further improvement and further research.
PDF182September 25, 2025