ChatPaper.aiChatPaper

TRIP-Bench: Un Punto de Referencia para Agentes Interactivos de Horizonte Largo en Escenarios del Mundo Real

TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios

February 2, 2026
Autores: Yuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo, Chenyang Zhang, Shuaiyu Zhou, Zengjie Hu, Dailin Li, Jingwen Xu, Kaimin Wang, Wenhao Liu, Tianlong Li, Fengpeng Yue, Feng Hong, Cao Liu, Ke Zeng
cs.AI

Resumen

A medida que los agentes basados en LLM se despliegan en entornos del mundo real cada vez más complejos, los puntos de referencia existentes subrepresentan desafíos clave como la aplicación de restricciones globales, la coordinación del razonamiento multi-herramienta y la adaptación a comportamientos de usuario en evolución durante interacciones largas y multi-turno. Para cerrar esta brecha, presentamos TRIP-Bench, un punto de referencia de horizonte largo basado en escenarios realistas de planificación de viajes. TRIP-Bench aprovecha datos del mundo real, ofrece 18 herramientas curadas y más de 40 requisitos de viaje, y admite evaluación automatizada. Incluye divisiones de dificultad variable; la división difícil enfatiza interacciones largas y ambiguas, cambios de estilo, cambios de viabilidad y revisión iterativa de versiones. Los diálogos abarcan hasta 15 turnos de usuario, pueden involucrar más de 150 llamadas a herramientas y pueden superar las 200k tokens de contexto. Los experimentos muestran que incluso los modelos avanzados logran como máximo un 50% de éxito en la división fácil, con un rendimiento que cae por debajo del 10% en subconjuntos difíciles. Además, proponemos GTPO, un método de aprendizaje por refuerzo multi-turno en línea con normalización de recompensa especializada y diferenciación de recompensas. Aplicado a Qwen2.5-32B-Instruct, GTPO mejora la satisfacción de restricciones y la robustez de la interacción, superando a Gemini-3-Pro en nuestra evaluación. Esperamos que TRIP-Bench impulse el avance de agentes interactivos prácticos de horizonte largo, y que GTPO proporcione una receta efectiva de RL en línea para un entrenamiento robusto de horizonte largo.
English
As LLM-based agents are deployed in increasingly complex real-world settings, existing benchmarks underrepresent key challenges such as enforcing global constraints, coordinating multi-tool reasoning, and adapting to evolving user behavior over long, multi-turn interactions. To bridge this gap, we introduce TRIP-Bench, a long-horizon benchmark grounded in realistic travel-planning scenarios. TRIP-Bench leverages real-world data, offers 18 curated tools and 40+ travel requirements, and supports automated evaluation. It includes splits of varying difficulty; the hard split emphasizes long and ambiguous interactions, style shifts, feasibility changes, and iterative version revision. Dialogues span up to 15 user turns, can involve 150+ tool calls, and may exceed 200k tokens of context. Experiments show that even advanced models achieve at most 50\% success on the easy split, with performance dropping below 10\% on hard subsets. We further propose GTPO, an online multi-turn reinforcement learning method with specialized reward normalization and reward differencing. Applied to Qwen2.5-32B-Instruct, GTPO improves constraint satisfaction and interaction robustness, outperforming Gemini-3-Pro in our evaluation. We expect TRIP-Bench to advance practical long-horizon interactive agents, and GTPO to provide an effective online RL recipe for robust long-horizon training.
PDF92February 7, 2026