ChatPaper.aiChatPaper

ARIA: 의도 기반 보상 집계를 통한 언어 에이전트 훈련

ARIA: Training Language Agents with Intention-Driven Reward Aggregation

May 31, 2025
저자: Ruihan Yang, Yikai Zhang, Aili Chen, Xintao Wang, Siyu Yuan, Jiangjie Chen, Deqing Yang, Yanghua Xiao
cs.AI

초록

대형 언어 모델(LLMs)은 자유 형식의 언어 상호작용을 통해 복잡한 추론과 의사결정을 수행할 수 있는 에이전트를 가능하게 했습니다. 그러나 협상이나 질문 게임과 같은 개방형 언어 행동 환경에서, 행동 공간은 토큰에 대한 결합 분포로 공식화될 수 있으며, 이는 기하급수적으로 큰 행동 공간을 초래합니다. 이러한 공간에서 행동을 샘플링하면 극단적인 보상 희소성이 발생할 수 있으며, 이는 큰 보상 분산을 가져와 효과적인 강화 학습(RL)을 방해합니다. 이를 해결하기 위해, 우리는 ARIA(Aggregates Rewards in Intention space)라는 방법을 제안합니다. ARIA는 자연어 행동을 고차원의 결합 토큰 분포 공간에서 저차원의 의도 공간으로 투영하여, 의미적으로 유사한 행동들을 클러스터링하고 공유된 보상을 할당합니다. 이 의도 인식 보상 집계는 보상 신호를 밀도 있게 만들어 보상 분산을 줄이고, 더 나은 정책 최적화를 촉진합니다. 광범위한 실험을 통해 ARIA가 정책 그래디언트 분산을 크게 줄일 뿐만 아니라, 네 가지 하위 작업에서 평균 9.95%의 상당한 성능 향상을 제공하며, 오프라인 및 온라인 RL 기준선을 꾸준히 능가함을 입증했습니다.
English
Large language models (LLMs) have enabled agents to perform complex reasoning and decision-making through free-form language interactions. However, in open-ended language action environments (e.g., negotiation or question-asking games), the action space can be formulated as a joint distribution over tokens, resulting in an exponentially large action space. Sampling actions in such a space can lead to extreme reward sparsity, which brings large reward variance, hindering effective reinforcement learning (RL). To address this, we propose ARIA, a method that Aggregates Rewards in Intention space to enable efficient and effective language Agents training. ARIA aims to project natural language actions from the high-dimensional joint token distribution space into a low-dimensional intention space, where semantically similar actions are clustered and assigned shared rewards. This intention-aware reward aggregation reduces reward variance by densifying reward signals, fostering better policy optimization. Extensive experiments demonstrate that ARIA not only significantly reduces policy gradient variance, but also delivers substantial performance gains of an average of 9.95% across four downstream tasks, consistently outperforming offline and online RL baselines.
PDF272June 3, 2025