TRIP-Bench: Um Benchmark para Agentes Interativos de Longo Horizonte em Cenários do Mundo Real

Resumo

À medida que os agentes baseados em LLM são implantados em cenários do mundo real cada vez mais complexos, os benchmarks existentes sub-representam desafios fundamentais, como a aplicação de restrições globais, a coordenação de raciocínio com múltiplas ferramentas e a adaptação a comportamentos do usuário em evolução ao longo de interações longas e multiturno. Para preencher essa lacuna, apresentamos o TRIP-Bench, um benchmark de longo prazo baseado em cenários realistas de planejamento de viagens. O TRIP-Bench utiliza dados do mundo real, oferece 18 ferramentas curadas e mais de 40 requisitos de viagem, e suporta avaliação automatizada. Inclui divisões de dificuldade variável; a divisão difícil enfatiza interações longas e ambíguas, mudanças de estilo, alterações de viabilidade e revisão iterativa de versões. Os diálogos abrangem até 15 turnos do usuário, podem envolver mais de 150 chamadas de ferramentas e podem exceder 200 mil tokens de contexto. Experimentos mostram que mesmo modelos avançados atingem no máximo 50% de sucesso na divisão fácil, com o desempenho caindo abaixo de 10% em subconjuntos difíceis. Propomos ainda o GTPO, um método de aprendizado por reforço multiturno online com normalização de recompensa especializada e diferenciação de recompensa. Aplicado ao Qwen2.5-32B-Instruct, o GTPO melhora a satisfação de restrições e a robustez da interação, superando o Gemini-3-Pro em nossa avaliação. Esperamos que o TRIP-Bench avance o desenvolvimento de agentes interativos práticos de longo prazo, e que o GTPO forneça uma receita eficaz de RL online para treinamento robusto em horizontes longos.

English

As LLM-based agents are deployed in increasingly complex real-world settings, existing benchmarks underrepresent key challenges such as enforcing global constraints, coordinating multi-tool reasoning, and adapting to evolving user behavior over long, multi-turn interactions. To bridge this gap, we introduce TRIP-Bench, a long-horizon benchmark grounded in realistic travel-planning scenarios. TRIP-Bench leverages real-world data, offers 18 curated tools and 40+ travel requirements, and supports automated evaluation. It includes splits of varying difficulty; the hard split emphasizes long and ambiguous interactions, style shifts, feasibility changes, and iterative version revision. Dialogues span up to 15 user turns, can involve 150+ tool calls, and may exceed 200k tokens of context. Experiments show that even advanced models achieve at most 50\% success on the easy split, with performance dropping below 10\% on hard subsets. We further propose GTPO, an online multi-turn reinforcement learning method with specialized reward normalization and reward differencing. Applied to Qwen2.5-32B-Instruct, GTPO improves constraint satisfaction and interaction robustness, outperforming Gemini-3-Pro in our evaluation. We expect TRIP-Bench to advance practical long-horizon interactive agents, and GTPO to provide an effective online RL recipe for robust long-horizon training.

TRIP-Bench: Um Benchmark para Agentes Interativos de Longo Horizonte em Cenários do Mundo Real

TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios

Resumo

Support