ChatPaper.aiChatPaper

TRIP-Bench: Een Benchmark voor Interactieve Agents met Lange-Tijdshorizon in Realistische Scenario's

TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios

February 2, 2026
Auteurs: Yuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo, Chenyang Zhang, Shuaiyu Zhou, Zengjie Hu, Dailin Li, Jingwen Xu, Kaimin Wang, Wenhao Liu, Tianlong Li, Fengpeng Yue, Feng Hong, Cao Liu, Ke Zeng
cs.AI

Samenvatting

Naarmate op LLM gebaseerde agents worden ingezet in steeds complexere real-world omgevingen, ondervertegenwoordigen bestaande benchmarks cruciale uitdagingen zoals het handhaven van globale restricties, het coördineren van redeneren met meerdere tools en het aanpassen aan evoluerend gebruikersgedrag tijdens lange, multi-turn interacties. Om deze kloof te dichten, introduceren we TRIP-Bench, een benchmark voor lange-termijnplanning gebaseerd op realistische reisplanningsscenario's. TRIP-Bench maakt gebruik van real-world data, biedt 18 zorgvuldig samengestelde tools en meer dan 40 reisvereisten, en ondersteunt geautomatiseerde evaluatie. Het bevat splitsingen van uiteenlopende moeilijkheidsgraad; de moeilijke splitsing benadrukt lange en ambigue interacties, stijlverschuivingen, veranderende haalbaarheid en iteratieve versie-revisie. Dialogen beslaan tot 15 gebruikersbeurten, kunnen meer dan 150 tool-aanroepen omvatten en kunnen een context van meer dan 200k tokens overschrijden. Experimenten tonen aan dat zelfs geavanceerde modellen hooguit 50% succes behalen op de eenvoudige splitsing, waarbij de prestaties dalen tot onder 10% op moeilijke subsets. We stellen verder GTPO voor, een online multi-turn reinforcement learning-methode met gespecialiseerde reward-normalisatie en reward-differencing. Toegepast op Qwen2.5-32B-Instruct, verbetert GTPO de restrictienaleving en interactierobuustheid en presteert het beter dan Gemini-3-Pro in onze evaluatie. We verwachten dat TRIP-Bench praktische, langetermijn interactieve agents vooruit zal helpen, en dat GTPO een effectief online RL-recept zal bieden voor robuuste langetermijntraining.
English
As LLM-based agents are deployed in increasingly complex real-world settings, existing benchmarks underrepresent key challenges such as enforcing global constraints, coordinating multi-tool reasoning, and adapting to evolving user behavior over long, multi-turn interactions. To bridge this gap, we introduce TRIP-Bench, a long-horizon benchmark grounded in realistic travel-planning scenarios. TRIP-Bench leverages real-world data, offers 18 curated tools and 40+ travel requirements, and supports automated evaluation. It includes splits of varying difficulty; the hard split emphasizes long and ambiguous interactions, style shifts, feasibility changes, and iterative version revision. Dialogues span up to 15 user turns, can involve 150+ tool calls, and may exceed 200k tokens of context. Experiments show that even advanced models achieve at most 50\% success on the easy split, with performance dropping below 10\% on hard subsets. We further propose GTPO, an online multi-turn reinforcement learning method with specialized reward normalization and reward differencing. Applied to Qwen2.5-32B-Instruct, GTPO improves constraint satisfaction and interaction robustness, outperforming Gemini-3-Pro in our evaluation. We expect TRIP-Bench to advance practical long-horizon interactive agents, and GTPO to provide an effective online RL recipe for robust long-horizon training.
PDF92March 12, 2026