TRIP-Bench: Een Benchmark voor Interactieve Agents met Lange-Tijdshorizon in Realistische Scenario's

Samenvatting

Naarmate op LLM gebaseerde agents worden ingezet in steeds complexere real-world omgevingen, ondervertegenwoordigen bestaande benchmarks cruciale uitdagingen zoals het handhaven van globale restricties, het coördineren van redeneren met meerdere tools en het aanpassen aan evoluerend gebruikersgedrag tijdens lange, multi-turn interacties. Om deze kloof te dichten, introduceren we TRIP-Bench, een benchmark voor lange-termijnplanning gebaseerd op realistische reisplanningsscenario's. TRIP-Bench maakt gebruik van real-world data, biedt 18 zorgvuldig samengestelde tools en meer dan 40 reisvereisten, en ondersteunt geautomatiseerde evaluatie. Het bevat splitsingen van uiteenlopende moeilijkheidsgraad; de moeilijke splitsing benadrukt lange en ambigue interacties, stijlverschuivingen, veranderende haalbaarheid en iteratieve versie-revisie. Dialogen beslaan tot 15 gebruikersbeurten, kunnen meer dan 150 tool-aanroepen omvatten en kunnen een context van meer dan 200k tokens overschrijden. Experimenten tonen aan dat zelfs geavanceerde modellen hooguit 50% succes behalen op de eenvoudige splitsing, waarbij de prestaties dalen tot onder 10% op moeilijke subsets. We stellen verder GTPO voor, een online multi-turn reinforcement learning-methode met gespecialiseerde reward-normalisatie en reward-differencing. Toegepast op Qwen2.5-32B-Instruct, verbetert GTPO de restrictienaleving en interactierobuustheid en presteert het beter dan Gemini-3-Pro in onze evaluatie. We verwachten dat TRIP-Bench praktische, langetermijn interactieve agents vooruit zal helpen, en dat GTPO een effectief online RL-recept zal bieden voor robuuste langetermijntraining.

English

As LLM-based agents are deployed in increasingly complex real-world settings, existing benchmarks underrepresent key challenges such as enforcing global constraints, coordinating multi-tool reasoning, and adapting to evolving user behavior over long, multi-turn interactions. To bridge this gap, we introduce TRIP-Bench, a long-horizon benchmark grounded in realistic travel-planning scenarios. TRIP-Bench leverages real-world data, offers 18 curated tools and 40+ travel requirements, and supports automated evaluation. It includes splits of varying difficulty; the hard split emphasizes long and ambiguous interactions, style shifts, feasibility changes, and iterative version revision. Dialogues span up to 15 user turns, can involve 150+ tool calls, and may exceed 200k tokens of context. Experiments show that even advanced models achieve at most 50\% success on the easy split, with performance dropping below 10\% on hard subsets. We further propose GTPO, an online multi-turn reinforcement learning method with specialized reward normalization and reward differencing. Applied to Qwen2.5-32B-Instruct, GTPO improves constraint satisfaction and interaction robustness, outperforming Gemini-3-Pro in our evaluation. We expect TRIP-Bench to advance practical long-horizon interactive agents, and GTPO to provide an effective online RL recipe for robust long-horizon training.

TRIP-Bench: Een Benchmark voor Interactieve Agents met Lange-Tijdshorizon in Realistische Scenario's

TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios

Samenvatting

Support