TRIP-Bench: Um Benchmark para Agentes Interativos de Longo Horizonte em Cenários do Mundo Real
TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios
February 2, 2026
Autores: Yuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo, Chenyang Zhang, Shuaiyu Zhou, Zengjie Hu, Dailin Li, Jingwen Xu, Kaimin Wang, Wenhao Liu, Tianlong Li, Fengpeng Yue, Feng Hong, Cao Liu, Ke Zeng
cs.AI
Resumo
À medida que os agentes baseados em LLM são implantados em cenários do mundo real cada vez mais complexos, os benchmarks existentes sub-representam desafios fundamentais, como a aplicação de restrições globais, a coordenação de raciocínio com múltiplas ferramentas e a adaptação a comportamentos do usuário em evolução ao longo de interações longas e multiturno. Para preencher essa lacuna, apresentamos o TRIP-Bench, um benchmark de longo prazo baseado em cenários realistas de planejamento de viagens. O TRIP-Bench utiliza dados do mundo real, oferece 18 ferramentas curadas e mais de 40 requisitos de viagem, e suporta avaliação automatizada. Inclui divisões de dificuldade variável; a divisão difícil enfatiza interações longas e ambíguas, mudanças de estilo, alterações de viabilidade e revisão iterativa de versões. Os diálogos abrangem até 15 turnos do usuário, podem envolver mais de 150 chamadas de ferramentas e podem exceder 200 mil tokens de contexto. Experimentos mostram que mesmo modelos avançados atingem no máximo 50% de sucesso na divisão fácil, com o desempenho caindo abaixo de 10% em subconjuntos difíceis. Propomos ainda o GTPO, um método de aprendizado por reforço multiturno online com normalização de recompensa especializada e diferenciação de recompensa. Aplicado ao Qwen2.5-32B-Instruct, o GTPO melhora a satisfação de restrições e a robustez da interação, superando o Gemini-3-Pro em nossa avaliação. Esperamos que o TRIP-Bench avance o desenvolvimento de agentes interativos práticos de longo prazo, e que o GTPO forneça uma receita eficaz de RL online para treinamento robusto em horizontes longos.
English
As LLM-based agents are deployed in increasingly complex real-world settings, existing benchmarks underrepresent key challenges such as enforcing global constraints, coordinating multi-tool reasoning, and adapting to evolving user behavior over long, multi-turn interactions. To bridge this gap, we introduce TRIP-Bench, a long-horizon benchmark grounded in realistic travel-planning scenarios. TRIP-Bench leverages real-world data, offers 18 curated tools and 40+ travel requirements, and supports automated evaluation. It includes splits of varying difficulty; the hard split emphasizes long and ambiguous interactions, style shifts, feasibility changes, and iterative version revision. Dialogues span up to 15 user turns, can involve 150+ tool calls, and may exceed 200k tokens of context. Experiments show that even advanced models achieve at most 50\% success on the easy split, with performance dropping below 10\% on hard subsets. We further propose GTPO, an online multi-turn reinforcement learning method with specialized reward normalization and reward differencing. Applied to Qwen2.5-32B-Instruct, GTPO improves constraint satisfaction and interaction robustness, outperforming Gemini-3-Pro in our evaluation. We expect TRIP-Bench to advance practical long-horizon interactive agents, and GTPO to provide an effective online RL recipe for robust long-horizon training.