ChatPaper.aiChatPaper

TRIP-Bench: 실세계 시나리오에서 장기 상호작용 에이전트를 위한 벤치마크

TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios

February 2, 2026
저자: Yuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo, Chenyang Zhang, Shuaiyu Zhou, Zengjie Hu, Dailin Li, Jingwen Xu, Kaimin Wang, Wenhao Liu, Tianlong Li, Fengpeng Yue, Feng Hong, Cao Liu, Ke Zeng
cs.AI

초록

LLM 기반 에이전트가 점점 더 복잡한 현실 세계 환경에 배포됨에 따라, 기존 벤치마크는 전역 제약 조건 적용, 다중 도구 추론 조정, 장기적 다중 턴 상호작용에서 진화하는 사용자 행동에 적응하기와 같은 핵심 과제를 충분히 반영하지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 현실적인 여행 계획 시나리오를 기반으로 한 장기 종단 벤치마크인 TRIP-Bench를 소개합니다. TRIP-Bench는 실제 데이터를 활용하며, 18개의 정제된 도구와 40개 이상의 여행 요구 사항을 제공하고, 자동화된 평가를 지원합니다. 이 벤치마크는 다양한 난이도의 분할을 포함하는데, 특히 어려운 분할은 길고 모호한 상호작용, 스타일 변화, 실행 가능성 변경, 반복적인 버전 수정을 강조합니다. 대화는 최대 15개의 사용자 턴에 걸치며, 150회 이상의 도구 호출을 수반하고, 20만 토큰이 넘는 컨텍스트를 가질 수 있습니다. 실험 결과, 심지어 고도화된 모델들도 쉬운 분할에서 최대 50%의 성공률을 보였으며, 어려운 하위 집합에서는 성능이 10% 미만으로 떨어졌습니다. 우리는 더 나아가 특화된 보상 정규화 및 보상 차분을 통한 온라인 다중 턴 강화 학습 방법인 GTPO를 제안합니다. Qwen2.5-32B-Instruct에 적용된 GTPO는 제약 조건 충족률과 상호작용 견고성을 향상시켜, 우리의 평가에서 Gemini-3-Pro를 능가하는 성능을 보였습니다. 우리는 TRIP-Bench가 실용적인 장기 종단 상호작용 에이전트의 발전을 촉진하고, GTPO가 견고한 장기 종단 학습을 위한 효과적인 온라인 RL 방법론을 제공할 것으로 기대합니다.
English
As LLM-based agents are deployed in increasingly complex real-world settings, existing benchmarks underrepresent key challenges such as enforcing global constraints, coordinating multi-tool reasoning, and adapting to evolving user behavior over long, multi-turn interactions. To bridge this gap, we introduce TRIP-Bench, a long-horizon benchmark grounded in realistic travel-planning scenarios. TRIP-Bench leverages real-world data, offers 18 curated tools and 40+ travel requirements, and supports automated evaluation. It includes splits of varying difficulty; the hard split emphasizes long and ambiguous interactions, style shifts, feasibility changes, and iterative version revision. Dialogues span up to 15 user turns, can involve 150+ tool calls, and may exceed 200k tokens of context. Experiments show that even advanced models achieve at most 50\% success on the easy split, with performance dropping below 10\% on hard subsets. We further propose GTPO, an online multi-turn reinforcement learning method with specialized reward normalization and reward differencing. Applied to Qwen2.5-32B-Instruct, GTPO improves constraint satisfaction and interaction robustness, outperforming Gemini-3-Pro in our evaluation. We expect TRIP-Bench to advance practical long-horizon interactive agents, and GTPO to provide an effective online RL recipe for robust long-horizon training.
PDF92February 7, 2026