Pensare vs. Agire: Agenti che Ragionano Scalando l'Interazione al Momento del Test
Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction
June 9, 2025
Autori: Junhong Shen, Hao Bai, Lunjun Zhang, Yifei Zhou, Amrith Setlur, Shengbang Tong, Diego Caples, Nan Jiang, Tong Zhang, Ameet Talwalkar, Aviral Kumar
cs.AI
Abstract
L'attuale paradigma di scalabilità al momento del test si basa sulla generazione di tracce di ragionamento lunghe ("pensare" di più) prima di produrre una risposta. Nei problemi degli agenti che richiedono interazione, ciò può essere fatto generando tracce di pensiero prima di agire nel mondo. Tuttavia, questo processo non consente agli agenti di acquisire nuove informazioni dall'ambiente o di adattare il loro comportamento nel tempo. In questo lavoro, proponiamo di scalare l'interazione al momento del test, una dimensione inesplorata della scalabilità al momento del test che aumenta l'orizzonte di interazione dell'agente per consentire l'esecuzione di comportamenti complessi come l'esplorazione, il backtracking e la ri-pianificazione dinamica all'interno di un singolo rollout. Per dimostrare il potenziale di questa dimensione di scalabilità, studiamo il dominio degli agenti web. In primo luogo, mostriamo che anche la scalabilità dell'interazione basata su prompt, senza alcun addestramento, può migliorare in modo non banale il successo delle attività sui benchmark web. Sulla base di ciò, introduciamo TTI (Test-Time Interaction), un approccio di apprendimento per rinforzo online (RL) basato su curriculum che addestra gli agenti regolando in modo adattivo la lunghezza dei loro rollout. Utilizzando un modello Gemma 3 12B, TTI produce agenti web open-source e open-data all'avanguardia sui benchmark WebVoyager e WebArena. Inoltre, mostriamo che TTI consente agli agenti di bilanciare in modo adattivo esplorazione e sfruttamento. I nostri risultati stabiliscono la scalabilità dell'interazione come un potente asse complementare alla scalabilità del calcolo per passo, offrendo nuove strade per l'addestramento di agenti adattivi.
English
The current paradigm of test-time scaling relies on generating long reasoning
traces ("thinking" more) before producing a response. In agent problems that
require interaction, this can be done by generating thinking traces before
acting in the world. However, this process does not allow agents to acquire new
information from the environment or adapt their behavior over time. In this
work, we propose to scale test-time interaction, an untapped dimension of
test-time scaling that increases the agent's interaction horizon to enable
running rich behaviors such as exploration, backtracking, and dynamic
re-planning within a single rollout. To demonstrate the promise of this scaling
dimension, we study the domain of web agents. We first show that even
prompting-based interaction scaling without any training can improve task
success on web benchmarks non-trivially. Building on this, we introduce TTI
(Test-Time Interaction), a curriculum-based online reinforcement learning (RL)
approach that trains agents by adaptively adjusting their rollout lengths.
Using a Gemma 3 12B model, TTI produces state-of-the-art open-source, open-data
web agents on WebVoyager and WebArena benchmarks. We further show that TTI
enables agents to balance exploration and exploitation adaptively. Our results
establish interaction scaling as a powerful, complementary axis to scaling
per-step compute, offering new avenues for training adaptive agents.