ARIA : Entraînement des agents linguistiques par agrégation de récompenses basée sur l'intention
ARIA: Training Language Agents with Intention-Driven Reward Aggregation
May 31, 2025
Auteurs: Ruihan Yang, Yikai Zhang, Aili Chen, Xintao Wang, Siyu Yuan, Jiangjie Chen, Deqing Yang, Yanghua Xiao
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont permis aux agents d'effectuer des raisonnements complexes et de prendre des décisions grâce à des interactions langagières libres. Cependant, dans des environnements d'action langagière ouverts (par exemple, des jeux de négociation ou de questionnement), l'espace d'action peut être formulé comme une distribution conjointe sur les tokens, ce qui résulte en un espace d'action exponentiellement grand. L'échantillonnage d'actions dans un tel espace peut entraîner une extrême rareté des récompenses, ce qui engendre une grande variance des récompenses, entravant l'apprentissage par renforcement (RL) efficace. Pour résoudre ce problème, nous proposons ARIA, une méthode qui agrège les récompenses dans l'espace d'intention pour permettre un entraînement efficace et efficient des agents langagiers. ARIA vise à projeter les actions en langage naturel de l'espace de distribution conjointe de haute dimension des tokens dans un espace d'intention de faible dimension, où les actions sémantiquement similaires sont regroupées et se voient attribuer des récompenses partagées. Cette agrégation de récompenses prenant en compte l'intention réduit la variance des récompenses en densifiant les signaux de récompense, favorisant ainsi une meilleure optimisation des politiques. Des expériences approfondies démontrent qu'ARIA non seulement réduit significativement la variance du gradient de politique, mais offre également des gains de performance substantiels, avec une moyenne de 9,95 % sur quatre tâches en aval, surpassant systématiquement les bases de référence RL hors ligne et en ligne.
English
Large language models (LLMs) have enabled agents to perform complex reasoning
and decision-making through free-form language interactions. However, in
open-ended language action environments (e.g., negotiation or question-asking
games), the action space can be formulated as a joint distribution over tokens,
resulting in an exponentially large action space. Sampling actions in such a
space can lead to extreme reward sparsity, which brings large reward variance,
hindering effective reinforcement learning (RL). To address this, we propose
ARIA, a method that Aggregates Rewards in Intention space to enable efficient
and effective language Agents training. ARIA aims to project natural language
actions from the high-dimensional joint token distribution space into a
low-dimensional intention space, where semantically similar actions are
clustered and assigned shared rewards. This intention-aware reward aggregation
reduces reward variance by densifying reward signals, fostering better policy
optimization. Extensive experiments demonstrate that ARIA not only
significantly reduces policy gradient variance, but also delivers substantial
performance gains of an average of 9.95% across four downstream tasks,
consistently outperforming offline and online RL baselines.