Pensar vs. Agir: Agentes que Raciocinam por Meio da Escalonamento de Interação em Tempo de Teste
Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction
June 9, 2025
Autores: Junhong Shen, Hao Bai, Lunjun Zhang, Yifei Zhou, Amrith Setlur, Shengbang Tong, Diego Caples, Nan Jiang, Tong Zhang, Ameet Talwalkar, Aviral Kumar
cs.AI
Resumo
O paradigma atual de escalonamento em tempo de teste baseia-se na geração de longos rastros de raciocínio ("pensar mais") antes de produzir uma resposta. Em problemas de agentes que exigem interação, isso pode ser feito gerando rastros de pensamento antes de agir no mundo. No entanto, esse processo não permite que os agentes adquiram novas informações do ambiente ou adaptem seu comportamento ao longo do tempo. Neste trabalho, propomos escalonar a interação em tempo de teste, uma dimensão inexplorada do escalonamento em tempo de teste que aumenta o horizonte de interação do agente para permitir a execução de comportamentos ricos, como exploração, retrocesso e re-planejamento dinâmico dentro de um único rollout. Para demonstrar o potencial dessa dimensão de escalonamento, estudamos o domínio de agentes web. Primeiro, mostramos que mesmo o escalonamento de interação baseado em prompt, sem qualquer treinamento, pode melhorar significativamente o sucesso em tarefas em benchmarks web. Com base nisso, introduzimos TTI (Test-Time Interaction), uma abordagem de aprendizado por reforço online (RL) baseada em currículo que treina agentes ajustando adaptativamente os comprimentos de seus rollouts. Usando um modelo Gemma 3 12B, o TTI produz agentes web de código aberto e dados abertos de última geração nos benchmarks WebVoyager e WebArena. Além disso, mostramos que o TTI permite que os agentes equilibrem adaptativamente a exploração e a exploração. Nossos resultados estabelecem o escalonamento de interação como um eixo poderoso e complementar ao escalonamento de computação por passo, oferecendo novas abordagens para o treinamento de agentes adaptativos.
English
The current paradigm of test-time scaling relies on generating long reasoning
traces ("thinking" more) before producing a response. In agent problems that
require interaction, this can be done by generating thinking traces before
acting in the world. However, this process does not allow agents to acquire new
information from the environment or adapt their behavior over time. In this
work, we propose to scale test-time interaction, an untapped dimension of
test-time scaling that increases the agent's interaction horizon to enable
running rich behaviors such as exploration, backtracking, and dynamic
re-planning within a single rollout. To demonstrate the promise of this scaling
dimension, we study the domain of web agents. We first show that even
prompting-based interaction scaling without any training can improve task
success on web benchmarks non-trivially. Building on this, we introduce TTI
(Test-Time Interaction), a curriculum-based online reinforcement learning (RL)
approach that trains agents by adaptively adjusting their rollout lengths.
Using a Gemma 3 12B model, TTI produces state-of-the-art open-source, open-data
web agents on WebVoyager and WebArena benchmarks. We further show that TTI
enables agents to balance exploration and exploitation adaptively. Our results
establish interaction scaling as a powerful, complementary axis to scaling
per-step compute, offering new avenues for training adaptive agents.