Мышление vs. Действие: Агенты, которые рассуждают через масштабирование взаимодействия во время тестирования
Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction
June 9, 2025
Авторы: Junhong Shen, Hao Bai, Lunjun Zhang, Yifei Zhou, Amrith Setlur, Shengbang Tong, Diego Caples, Nan Jiang, Tong Zhang, Ameet Talwalkar, Aviral Kumar
cs.AI
Аннотация
Современная парадигма масштабирования на этапе тестирования основывается на генерации длинных цепочек рассуждений ("больше думать") перед выдачей ответа. В задачах, требующих взаимодействия с агентом, это может быть реализовано путем генерации таких цепочек перед совершением действий в окружающей среде. Однако этот процесс не позволяет агентам получать новую информацию из среды или адаптировать свое поведение с течением времени. В данной работе мы предлагаем масштабировать взаимодействие на этапе тестирования — неисследованное направление масштабирования, которое увеличивает горизонт взаимодействия агента, позволяя реализовывать сложные поведенческие стратегии, такие как исследование, возврат к предыдущим шагам и динамическое перепланирование в рамках одного прогона. Чтобы продемонстрировать потенциал этого направления, мы исследуем область веб-агентов. Сначала мы показываем, что даже масштабирование взаимодействия на основе подсказок без какого-либо обучения может существенно улучшить успешность выполнения задач на веб-бенчмарках. На основе этого мы представляем TTI (Test-Time Interaction) — подход к обучению с подкреплением (RL) на основе учебного плана, который обучает агентов, адаптивно регулируя длину их прогонов. Используя модель Gemma 3 12B, TTI создает веб-агентов с открытым исходным кодом и открытыми данными, которые достигают наилучших результатов на бенчмарках WebVoyager и WebArena. Мы также показываем, что TTI позволяет агентам адаптивно балансировать между исследованием и эксплуатацией. Наши результаты подтверждают, что масштабирование взаимодействия является мощным и дополняющим направлением к масштабированию вычислительных ресурсов на каждый шаг, открывая новые возможности для обучения адаптивных агентов.
English
The current paradigm of test-time scaling relies on generating long reasoning
traces ("thinking" more) before producing a response. In agent problems that
require interaction, this can be done by generating thinking traces before
acting in the world. However, this process does not allow agents to acquire new
information from the environment or adapt their behavior over time. In this
work, we propose to scale test-time interaction, an untapped dimension of
test-time scaling that increases the agent's interaction horizon to enable
running rich behaviors such as exploration, backtracking, and dynamic
re-planning within a single rollout. To demonstrate the promise of this scaling
dimension, we study the domain of web agents. We first show that even
prompting-based interaction scaling without any training can improve task
success on web benchmarks non-trivially. Building on this, we introduce TTI
(Test-Time Interaction), a curriculum-based online reinforcement learning (RL)
approach that trains agents by adaptively adjusting their rollout lengths.
Using a Gemma 3 12B model, TTI produces state-of-the-art open-source, open-data
web agents on WebVoyager and WebArena benchmarks. We further show that TTI
enables agents to balance exploration and exploitation adaptively. Our results
establish interaction scaling as a powerful, complementary axis to scaling
per-step compute, offering new avenues for training adaptive agents.