TRIP-Bench: Ein Benchmark für interaktive Agenten mit langem Planungshorizont in realen Szenarien
TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios
February 2, 2026
papers.authors: Yuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo, Chenyang Zhang, Shuaiyu Zhou, Zengjie Hu, Dailin Li, Jingwen Xu, Kaimin Wang, Wenhao Liu, Tianlong Li, Fengpeng Yue, Feng Hong, Cao Liu, Ke Zeng
cs.AI
papers.abstract
Da LLM-basierte Agenten in zunehmend komplexeren realen Umgebungen eingesetzt werden, bilden bestehende Benchmarks wichtige Herausforderungen nur unzureichend ab, wie z.B. die Durchsetzung globaler Einschränkungen, die Koordination von Multi-Tool-Reasoning und die Anpassung an sich entwickelndes Nutzerverhalten über lange, mehrschrittige Interaktionen hinweg. Um diese Lücke zu schließen, stellen wir TRIP-Bench vor, einen Benchmark für langfristige Planung, der auf realistischen Reiseplanungsszenarien basiert. TRIP-Bench nutzt reale Daten, bietet 18 sorgfältig ausgewählte Tools und über 40 Reiserequisiten und unterstützt die automatisierte Auswertung. Es umfasst Aufteilungen mit unterschiedlichem Schwierigkeitsgrad; der schwierige Teil legt den Schwerpunkt auf lange und mehrdeutige Interaktionen, Stilwechsel, Machbarkeitsänderungen und iterative Versionsüberarbeitung. Dialoge erstrecken sich über bis zu 15 Nutzereingaben, können über 150 Tool-Aufrufe umfassen und einen Kontext von über 200.000 Tokens überschreiten. Experimente zeigen, dass selbst fortgeschrittene Modelle auf der einfachen Aufteilung höchstens 50 % Erfolg erzielen, wobei die Leistung bei schwierigen Teilmengen unter 10 % fällt. Wir schlagen weiterhin GTPO vor, eine Online-Multi-Turn-Verstärkungslernmethode mit spezieller Reward-Normalisierung und Reward-Differenzierung. Angewendet auf Qwen2.5-32B-Instruct verbessert GTPO die Einhaltung von Einschränkungen und die Interaktionsrobustheit und übertrifft in unserer Evaluation Gemini-3-Pro. Wir erwarten, dass TRIP-Bench die Entwicklung praktischer, langfristig interagierender Agenten vorantreibt und GTPO ein effektives Online-RL-Verfahren für robustes Training über lange Zeithorizonte bereitstellt.
English
As LLM-based agents are deployed in increasingly complex real-world settings, existing benchmarks underrepresent key challenges such as enforcing global constraints, coordinating multi-tool reasoning, and adapting to evolving user behavior over long, multi-turn interactions. To bridge this gap, we introduce TRIP-Bench, a long-horizon benchmark grounded in realistic travel-planning scenarios. TRIP-Bench leverages real-world data, offers 18 curated tools and 40+ travel requirements, and supports automated evaluation. It includes splits of varying difficulty; the hard split emphasizes long and ambiguous interactions, style shifts, feasibility changes, and iterative version revision. Dialogues span up to 15 user turns, can involve 150+ tool calls, and may exceed 200k tokens of context. Experiments show that even advanced models achieve at most 50\% success on the easy split, with performance dropping below 10\% on hard subsets. We further propose GTPO, an online multi-turn reinforcement learning method with specialized reward normalization and reward differencing. Applied to Qwen2.5-32B-Instruct, GTPO improves constraint satisfaction and interaction robustness, outperforming Gemini-3-Pro in our evaluation. We expect TRIP-Bench to advance practical long-horizon interactive agents, and GTPO to provide an effective online RL recipe for robust long-horizon training.