TRIP-Bench: Un Benchmark per Agenti Interattivi a Lungo Orizzonte in Scenari del Mondo Reale
TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios
February 2, 2026
Autori: Yuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo, Chenyang Zhang, Shuaiyu Zhou, Zengjie Hu, Dailin Li, Jingwen Xu, Kaimin Wang, Wenhao Liu, Tianlong Li, Fengpeng Yue, Feng Hong, Cao Liu, Ke Zeng
cs.AI
Abstract
Man mano che gli agenti basati su LLM vengono impiegati in contesti reali sempre più complessi, i benchmark esistenti rappresentano in modo insufficiente sfide chiave come l'applicazione di vincoli globali, il coordinamento di ragionamenti multi-strumento e l'adattamento a comportamenti utente in evoluzione durante interazioni lunghe e multi-turno. Per colmare questa lacuna, introduciamo TRIP-Bench, un benchmark di lungo orizzonte basato su scenari realistici di pianificazione di viaggi. TRIP-Bench utilizza dati del mondo reale, offre 18 strumenti curati e oltre 40 requisiti di viaggio, e supporta una valutazione automatizzata. Include partizioni di difficoltà variabile; la partizione difficile enfatizza interazioni lunghe e ambigue, cambiamenti di stile, variazioni di fattibilità e revisioni iterative della versione. I dialoghi possono estendersi fino a 15 turni utente, possono coinvolgere oltre 150 chiamate a strumenti e possono superare i 200k token di contesto. Gli esperimenti mostrano che anche modelli avanzati raggiungono al massimo il 50% di successo sulla partizione facile, con prestazioni che scendono sotto il 10% sui sottoinsiemi difficili. Proponiamo inoltre GTPO, un metodo di reinforcement learning online multi-turno con normalizzazione specifica dei reward e differenziazione dei reward. Applicato a Qwen2.5-32B-Instruct, GTPO migliora la soddisfazione dei vincoli e la robustezza dell'interazione, superando Gemini-3-Pro nella nostra valutazione. Ci aspettiamo che TRIP-Bench faccia progredire gli agenti interattivi pratici di lungo orizzonte, e che GTPO fornisca una ricetta efficace di RL online per un addestramento robusto di lungo orizzonte.
English
As LLM-based agents are deployed in increasingly complex real-world settings, existing benchmarks underrepresent key challenges such as enforcing global constraints, coordinating multi-tool reasoning, and adapting to evolving user behavior over long, multi-turn interactions. To bridge this gap, we introduce TRIP-Bench, a long-horizon benchmark grounded in realistic travel-planning scenarios. TRIP-Bench leverages real-world data, offers 18 curated tools and 40+ travel requirements, and supports automated evaluation. It includes splits of varying difficulty; the hard split emphasizes long and ambiguous interactions, style shifts, feasibility changes, and iterative version revision. Dialogues span up to 15 user turns, can involve 150+ tool calls, and may exceed 200k tokens of context. Experiments show that even advanced models achieve at most 50\% success on the easy split, with performance dropping below 10\% on hard subsets. We further propose GTPO, an online multi-turn reinforcement learning method with specialized reward normalization and reward differencing. Applied to Qwen2.5-32B-Instruct, GTPO improves constraint satisfaction and interaction robustness, outperforming Gemini-3-Pro in our evaluation. We expect TRIP-Bench to advance practical long-horizon interactive agents, and GTPO to provide an effective online RL recipe for robust long-horizon training.