ARIA: Entrenamiento de agentes lingüísticos con agregación de recompensas basada en intenciones
ARIA: Training Language Agents with Intention-Driven Reward Aggregation
May 31, 2025
Autores: Ruihan Yang, Yikai Zhang, Aili Chen, Xintao Wang, Siyu Yuan, Jiangjie Chen, Deqing Yang, Yanghua Xiao
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han permitido que los agentes realicen razonamientos complejos y toma de decisiones a través de interacciones lingüísticas de forma libre. Sin embargo, en entornos de acción lingüística de final abierto (por ejemplo, juegos de negociación o de formulación de preguntas), el espacio de acción puede formularse como una distribución conjunta sobre tokens, lo que resulta en un espacio de acción exponencialmente grande. Muestrear acciones en dicho espacio puede llevar a una extrema dispersión de recompensas, lo que genera una gran varianza en las recompensas, dificultando el aprendizaje por refuerzo (RL, por sus siglas en inglés) efectivo. Para abordar esto, proponemos ARIA, un método que Agrega Recompensas en el espacio de Intención para permitir un entrenamiento eficiente y efectivo de agentes de lenguaje. ARIA tiene como objetivo proyectar acciones en lenguaje natural desde el espacio de distribución conjunta de tokens de alta dimensión hacia un espacio de intención de baja dimensión, donde acciones semánticamente similares se agrupan y se les asignan recompensas compartidas. Esta agregación de recompensas consciente de la intención reduce la varianza de las recompensas al densificar las señales de recompensa, fomentando una mejor optimización de políticas. Experimentos extensos demuestran que ARIA no solo reduce significativamente la varianza del gradiente de políticas, sino que también ofrece ganancias sustanciales de rendimiento, con un promedio del 9.95% en cuatro tareas posteriores, superando consistentemente las líneas base de RL tanto en línea como fuera de línea.
English
Large language models (LLMs) have enabled agents to perform complex reasoning
and decision-making through free-form language interactions. However, in
open-ended language action environments (e.g., negotiation or question-asking
games), the action space can be formulated as a joint distribution over tokens,
resulting in an exponentially large action space. Sampling actions in such a
space can lead to extreme reward sparsity, which brings large reward variance,
hindering effective reinforcement learning (RL). To address this, we propose
ARIA, a method that Aggregates Rewards in Intention space to enable efficient
and effective language Agents training. ARIA aims to project natural language
actions from the high-dimensional joint token distribution space into a
low-dimensional intention space, where semantically similar actions are
clustered and assigned shared rewards. This intention-aware reward aggregation
reduces reward variance by densifying reward signals, fostering better policy
optimization. Extensive experiments demonstrate that ARIA not only
significantly reduces policy gradient variance, but also delivers substantial
performance gains of an average of 9.95% across four downstream tasks,
consistently outperforming offline and online RL baselines.