TRIP-Bench: Бенчмарк для интерактивных агентов с длинным горизонтом планирования в реальных сценариях
TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios
February 2, 2026
Авторы: Yuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo, Chenyang Zhang, Shuaiyu Zhou, Zengjie Hu, Dailin Li, Jingwen Xu, Kaimin Wang, Wenhao Liu, Tianlong Li, Fengpeng Yue, Feng Hong, Cao Liu, Ke Zeng
cs.AI
Аннотация
По мере внедрения агентов на основе больших языковых моделей (LLM) во всё более сложные реальные сценарии, существующие бенчмарки недостаточно отражают ключевые проблемы, такие как соблюдение глобальных ограничений, координация рассуждений с использованием множества инструментов и адаптация к изменяющемуся поведению пользователя в ходе длительных многоходовых взаимодействий. Чтобы заполнить этот пробел, мы представляем TRIP-Bench — долгосрочный бенчмарк, основанный на реалистичных сценариях планирования путешествий. TRIP-Bench использует реальные данные, предлагает 18 тщательно отобранных инструментов и более 40 требований к поездкам, а также поддерживает автоматизированную оценку. Он включает наборы данных разной сложности; сложный набор акцентирует внимание на длительных и неоднозначных взаимодействиях, смене стиля, изменениях осуществимости и итеративном пересмотре версий. Диалоги могут достигать 15 реплик пользователя, включать более 150 вызовов инструментов и превышать 200 тыс. токенов контекста. Эксперименты показывают, что даже передовые модели достигают не более 50% успеха на лёгком наборе, при этом производительность падает ниже 10% на сложных подмножествах. Мы также предлагаем GTPO — метод онлайн-многошагового обучения с подкреплением со специализированной нормализацией вознаграждений и разностным вознаграждением. Применённый к Qwen2.5-32B-Instruct, GTPO улучшает соблюдение ограничений и устойчивость взаимодействия, превосходя Gemini-3-Pro в нашей оценке. Мы ожидаем, что TRIP-Bench будет способствовать развитию практических долгосрочных интерактивных агентов, а GTPO предоставит эффективный рецепт онлайн-обучения с подкреплением для устойчивого долгосрочного обучения.
English
As LLM-based agents are deployed in increasingly complex real-world settings, existing benchmarks underrepresent key challenges such as enforcing global constraints, coordinating multi-tool reasoning, and adapting to evolving user behavior over long, multi-turn interactions. To bridge this gap, we introduce TRIP-Bench, a long-horizon benchmark grounded in realistic travel-planning scenarios. TRIP-Bench leverages real-world data, offers 18 curated tools and 40+ travel requirements, and supports automated evaluation. It includes splits of varying difficulty; the hard split emphasizes long and ambiguous interactions, style shifts, feasibility changes, and iterative version revision. Dialogues span up to 15 user turns, can involve 150+ tool calls, and may exceed 200k tokens of context. Experiments show that even advanced models achieve at most 50\% success on the easy split, with performance dropping below 10\% on hard subsets. We further propose GTPO, an online multi-turn reinforcement learning method with specialized reward normalization and reward differencing. Applied to Qwen2.5-32B-Instruct, GTPO improves constraint satisfaction and interaction robustness, outperforming Gemini-3-Pro in our evaluation. We expect TRIP-Bench to advance practical long-horizon interactive agents, and GTPO to provide an effective online RL recipe for robust long-horizon training.