TRIP-Bench: Un Benchmark per Agenti Interattivi a Lungo Orizzonte in Scenari del Mondo Reale

Abstract

Man mano che gli agenti basati su LLM vengono impiegati in contesti reali sempre più complessi, i benchmark esistenti rappresentano in modo insufficiente sfide chiave come l'applicazione di vincoli globali, il coordinamento di ragionamenti multi-strumento e l'adattamento a comportamenti utente in evoluzione durante interazioni lunghe e multi-turno. Per colmare questa lacuna, introduciamo TRIP-Bench, un benchmark di lungo orizzonte basato su scenari realistici di pianificazione di viaggi. TRIP-Bench utilizza dati del mondo reale, offre 18 strumenti curati e oltre 40 requisiti di viaggio, e supporta una valutazione automatizzata. Include partizioni di difficoltà variabile; la partizione difficile enfatizza interazioni lunghe e ambigue, cambiamenti di stile, variazioni di fattibilità e revisioni iterative della versione. I dialoghi possono estendersi fino a 15 turni utente, possono coinvolgere oltre 150 chiamate a strumenti e possono superare i 200k token di contesto. Gli esperimenti mostrano che anche modelli avanzati raggiungono al massimo il 50% di successo sulla partizione facile, con prestazioni che scendono sotto il 10% sui sottoinsiemi difficili. Proponiamo inoltre GTPO, un metodo di reinforcement learning online multi-turno con normalizzazione specifica dei reward e differenziazione dei reward. Applicato a Qwen2.5-32B-Instruct, GTPO migliora la soddisfazione dei vincoli e la robustezza dell'interazione, superando Gemini-3-Pro nella nostra valutazione. Ci aspettiamo che TRIP-Bench faccia progredire gli agenti interattivi pratici di lungo orizzonte, e che GTPO fornisca una ricetta efficace di RL online per un addestramento robusto di lungo orizzonte.

English

As LLM-based agents are deployed in increasingly complex real-world settings, existing benchmarks underrepresent key challenges such as enforcing global constraints, coordinating multi-tool reasoning, and adapting to evolving user behavior over long, multi-turn interactions. To bridge this gap, we introduce TRIP-Bench, a long-horizon benchmark grounded in realistic travel-planning scenarios. TRIP-Bench leverages real-world data, offers 18 curated tools and 40+ travel requirements, and supports automated evaluation. It includes splits of varying difficulty; the hard split emphasizes long and ambiguous interactions, style shifts, feasibility changes, and iterative version revision. Dialogues span up to 15 user turns, can involve 150+ tool calls, and may exceed 200k tokens of context. Experiments show that even advanced models achieve at most 50\% success on the easy split, with performance dropping below 10\% on hard subsets. We further propose GTPO, an online multi-turn reinforcement learning method with specialized reward normalization and reward differencing. Applied to Qwen2.5-32B-Instruct, GTPO improves constraint satisfaction and interaction robustness, outperforming Gemini-3-Pro in our evaluation. We expect TRIP-Bench to advance practical long-horizon interactive agents, and GTPO to provide an effective online RL recipe for robust long-horizon training.

TRIP-Bench: Un Benchmark per Agenti Interattivi a Lungo Orizzonte in Scenari del Mondo Reale

TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios

Abstract

Support