TRIP-Bench : Un Benchmark pour les Agents Interactifs à Long Terme dans des Scénarios du Monde Réel
TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios
February 2, 2026
papers.authors: Yuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo, Chenyang Zhang, Shuaiyu Zhou, Zengjie Hu, Dailin Li, Jingwen Xu, Kaimin Wang, Wenhao Liu, Tianlong Li, Fengpeng Yue, Feng Hong, Cao Liu, Ke Zeng
cs.AI
papers.abstract
Alors que les agents basés sur LLM sont déployés dans des environnements réels de plus en plus complexes, les benchmarks existants sous-représentent des défis clés tels que l'application de contraintes globales, la coordination de raisonnements multi-outils et l'adaptation à l'évolution du comportement utilisateur lors d'interactions longues et multi-tours. Pour combler cette lacune, nous présentons TRIP-Bench, un benchmark à long horizon ancré dans des scénarios réalistes de planification de voyage. TRIP-Bench s'appuie sur des données réelles, propose 18 outils sélectionnés et plus de 40 exigences de voyage, et prend en charge l'évaluation automatisée. Il inclut des jeux de données de difficulté variable ; le jeu difficile met l'accent sur des interactions longues et ambiguës, des changements de style, des évolutions de faisabilité et des révisions itératives de versions. Les dialogues peuvent s'étendre jusqu'à 15 tours utilisateur, impliquer plus de 150 appels d'outils et dépasser 200 000 tokens de contexte. Les expériences montrent que même les modèles avancés n'atteignent au maximum que 50 % de réussite sur le jeu facile, avec une performance tombant en dessous de 10 % sur les sous-ensembles difficiles. Nous proposons en outre GTPO, une méthode d'apprentissage par renforcement en ligne multi-tours avec une normalisation de récompense spécialisée et un différenciel de récompense. Appliquée à Qwen2.5-32B-Instruct, GTPO améliore la satisfaction des contraintes et la robustesse des interactions, surpassant Gemini-3-Pro dans notre évaluation. Nous espérons que TRIP-Bench fera progresser les agents interactifs pratiques à long horizon, et que GTPO fournira une recette efficace de RL en ligne pour un entraînement robuste sur des horizons longs.
English
As LLM-based agents are deployed in increasingly complex real-world settings, existing benchmarks underrepresent key challenges such as enforcing global constraints, coordinating multi-tool reasoning, and adapting to evolving user behavior over long, multi-turn interactions. To bridge this gap, we introduce TRIP-Bench, a long-horizon benchmark grounded in realistic travel-planning scenarios. TRIP-Bench leverages real-world data, offers 18 curated tools and 40+ travel requirements, and supports automated evaluation. It includes splits of varying difficulty; the hard split emphasizes long and ambiguous interactions, style shifts, feasibility changes, and iterative version revision. Dialogues span up to 15 user turns, can involve 150+ tool calls, and may exceed 200k tokens of context. Experiments show that even advanced models achieve at most 50\% success on the easy split, with performance dropping below 10\% on hard subsets. We further propose GTPO, an online multi-turn reinforcement learning method with specialized reward normalization and reward differencing. Applied to Qwen2.5-32B-Instruct, GTPO improves constraint satisfaction and interaction robustness, outperforming Gemini-3-Pro in our evaluation. We expect TRIP-Bench to advance practical long-horizon interactive agents, and GTPO to provide an effective online RL recipe for robust long-horizon training.