Amélioration de la compréhension du langage dans les modèles de langage conscients de la parole avec GRPO
Advancing Speech Understanding in Speech-Aware Language Models with GRPO
September 21, 2025
papers.authors: Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, Eli Schwartz, Ron Hoory, Avihu Dekel
cs.AI
papers.abstract
Dans cet article, nous présentons une méthode basée sur l'Optimisation de Politique Relative par Groupe (Group Relative Policy Optimization, GRPO) pour entraîner des Modèles de Langue de Grande Taille Conscients de la Parole (Speech-Aware Large Language Models, SALLMs) sur des tâches de compréhension de la parole en format ouvert, telles que la Réponse à des Questions Parlées et la Traduction Automatique de la Parole. Les SALLMs se sont avérés très efficaces pour les tâches de compréhension de la parole. Le GRPO a récemment gagné en popularité pour son efficacité dans l'entraînement des LLMs, et des travaux antérieurs ont exploré son application aux SALLMs, principalement dans des tâches à choix multiples. En nous appuyant sur ces travaux, nous nous concentrons sur des tâches en format ouvert qui reflètent mieux les capacités génératives des modèles. Notre approche utilise le GRPO avec le BLEU comme signal de récompense pour optimiser les SALLMs, et nous démontrons empiriquement qu'elle surpasse l'Apprentissage Supervisé Standard (Standard Fine-Tuning, SFT) sur plusieurs indicateurs clés. Enfin, nous explorons le potentiel de l'incorporation d'échantillons hors politique dans le GRPO pour ces tâches, mettant en lumière des pistes d'amélioration et de recherche futures.
English
In this paper, we introduce a Group Relative Policy Optimization (GRPO)-based
method for training Speech-Aware Large Language Models (SALLMs) on open-format
speech understanding tasks, such as Spoken Question Answering and Automatic
Speech Translation. SALLMs have proven highly effective for speech
understanding tasks. GRPO has recently gained traction for its efficiency in
training LLMs, and prior work has explored its application to SALLMs, primarily
in multiple-choice tasks. Building on this, we focus on open-format tasks that
better reflect the generative abilities of the models. Our approach leverages
GRPO with BLEU as the reward signal to optimize SALLMs, and we demonstrate
empirically that it surpasses standard SFT across several key metrics. Finally,
we explore the potential of incorporating off-policy samples within GRPO for
these tasks, highlighting avenues for further improvement and further research.