Amélioration de la compréhension du langage dans les modèles de langage conscients de la parole avec GRPO

papers.abstract

Dans cet article, nous présentons une méthode basée sur l'Optimisation de Politique Relative par Groupe (Group Relative Policy Optimization, GRPO) pour entraîner des Modèles de Langue de Grande Taille Conscients de la Parole (Speech-Aware Large Language Models, SALLMs) sur des tâches de compréhension de la parole en format ouvert, telles que la Réponse à des Questions Parlées et la Traduction Automatique de la Parole. Les SALLMs se sont avérés très efficaces pour les tâches de compréhension de la parole. Le GRPO a récemment gagné en popularité pour son efficacité dans l'entraînement des LLMs, et des travaux antérieurs ont exploré son application aux SALLMs, principalement dans des tâches à choix multiples. En nous appuyant sur ces travaux, nous nous concentrons sur des tâches en format ouvert qui reflètent mieux les capacités génératives des modèles. Notre approche utilise le GRPO avec le BLEU comme signal de récompense pour optimiser les SALLMs, et nous démontrons empiriquement qu'elle surpasse l'Apprentissage Supervisé Standard (Standard Fine-Tuning, SFT) sur plusieurs indicateurs clés. Enfin, nous explorons le potentiel de l'incorporation d'échantillons hors politique dans le GRPO pour ces tâches, mettant en lumière des pistes d'amélioration et de recherche futures.

English

In this paper, we introduce a Group Relative Policy Optimization (GRPO)-based method for training Speech-Aware Large Language Models (SALLMs) on open-format speech understanding tasks, such as Spoken Question Answering and Automatic Speech Translation. SALLMs have proven highly effective for speech understanding tasks. GRPO has recently gained traction for its efficiency in training LLMs, and prior work has explored its application to SALLMs, primarily in multiple-choice tasks. Building on this, we focus on open-format tasks that better reflect the generative abilities of the models. Our approach leverages GRPO with BLEU as the reward signal to optimize SALLMs, and we demonstrate empirically that it surpasses standard SFT across several key metrics. Finally, we explore the potential of incorporating off-policy samples within GRPO for these tasks, highlighting avenues for further improvement and further research.

Amélioration de la compréhension du langage dans les modèles de langage conscients de la parole avec GRPO

Advancing Speech Understanding in Speech-Aware Language Models with GRPO

papers.abstract

Support