TRIP-Bench: 実世界シナリオにおける長期的対話型エージェントのベンチマーク
TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios
February 2, 2026
著者: Yuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo, Chenyang Zhang, Shuaiyu Zhou, Zengjie Hu, Dailin Li, Jingwen Xu, Kaimin Wang, Wenhao Liu, Tianlong Li, Fengpeng Yue, Feng Hong, Cao Liu, Ke Zeng
cs.AI
要旨
LLMベースのエージェントが現実世界の複雑な環境に導入されるにつれ、既存のベンチマークは、グローバル制約の強制、複数ツールを用いた推論の調整、長いマルチターン対話におけるユーザー行動の変化への適応といった重要な課題を十分に反映できていない。このギャップを埋めるため、現実的な旅行計画シナリオに基づく長期的視野のベンチマーク「TRIP-Bench」を提案する。TRIP-Benchは実世界のデータを活用し、厳選された18のツールと40以上の旅行要件を提供し、自動評価をサポートする。難易度別の分割を含み、特に難易度の高い分割では、長く曖昧な対話、スタイルの変化、実現可能性の変更、反復的な計画の修正に重点を置いている。対話は最大15ユーザーターンに及び、150回以上のツール呼び出しを含み、コンテキストが20万トークンを超える場合もある。実験では、先進的なモデルであっても、容易な分割でせいぜい50%の成功率に留まり、難しい部分集合では性能が10%未満に低下することが示された。さらに、専門的な報酬正規化と報酬差分を備えたオンライン多ターン強化学習手法「GTPO」を提案する。Qwen2.5-32B-Instructに適用したGTPOは、制約充足性と対話の堅牢性を向上させ、我々の評価においてGemini-3-Proを上回った。TRIP-Benchが実用的な長期的対話型エージェントの進展に、GTPOが堅牢な長期的訓練のための効果的なオンラインRL手法として貢献することを期待する。
English
As LLM-based agents are deployed in increasingly complex real-world settings, existing benchmarks underrepresent key challenges such as enforcing global constraints, coordinating multi-tool reasoning, and adapting to evolving user behavior over long, multi-turn interactions. To bridge this gap, we introduce TRIP-Bench, a long-horizon benchmark grounded in realistic travel-planning scenarios. TRIP-Bench leverages real-world data, offers 18 curated tools and 40+ travel requirements, and supports automated evaluation. It includes splits of varying difficulty; the hard split emphasizes long and ambiguous interactions, style shifts, feasibility changes, and iterative version revision. Dialogues span up to 15 user turns, can involve 150+ tool calls, and may exceed 200k tokens of context. Experiments show that even advanced models achieve at most 50\% success on the easy split, with performance dropping below 10\% on hard subsets. We further propose GTPO, an online multi-turn reinforcement learning method with specialized reward normalization and reward differencing. Applied to Qwen2.5-32B-Instruct, GTPO improves constraint satisfaction and interaction robustness, outperforming Gemini-3-Pro in our evaluation. We expect TRIP-Bench to advance practical long-horizon interactive agents, and GTPO to provide an effective online RL recipe for robust long-horizon training.