ChatPaper.aiChatPaper

Denken versus Doen: Agents die Redeneren door Testtijd Interactie te Schalen

Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

June 9, 2025
Auteurs: Junhong Shen, Hao Bai, Lunjun Zhang, Yifei Zhou, Amrith Setlur, Shengbang Tong, Diego Caples, Nan Jiang, Tong Zhang, Ameet Talwalkar, Aviral Kumar
cs.AI

Samenvatting

Het huidige paradigma van schaling tijdens testtijd is gebaseerd op het genereren van lange redeneersporen ("meer nadenken") voordat een antwoord wordt geproduceerd. Bij agentproblemen die interactie vereisen, kan dit worden gedaan door redeneersporen te genereren voordat er in de wereld wordt gehandeld. Dit proces staat echter niet toe dat agenten nieuwe informatie uit de omgeving verkrijgen of hun gedrag in de loop van de tijd aanpassen. In dit werk stellen we voor om de interactie tijdens testtijd te schalen, een onbenutte dimensie van schaling tijdens testtijd die de interactiehorizon van de agent vergroot om rijke gedragingen zoals exploratie, terugkeer en dynamische herplanning binnen een enkele rollout mogelijk te maken. Om de belofte van deze schalingsdimensie aan te tonen, bestuderen we het domein van webagents. We laten eerst zien dat zelfs interactieschaling op basis van prompting zonder enige training de taaksucces op webbenchmarks aanzienlijk kan verbeteren. Hierop voortbouwend introduceren we TTI (Test-Time Interaction), een curriculumgebaseerde online reinforcement learning (RL)-benadering die agenten traint door hun rollout-lengtes adaptief aan te passen. Met behulp van een Gemma 3 12B-model produceert TTI state-of-the-art open-source, open-data webagents op de WebVoyager- en WebArena-benchmarks. We laten verder zien dat TTI agenten in staat stelt om exploratie en exploitatie adaptief in balans te brengen. Onze resultaten vestigen interactieschaling als een krachtige, complementaire as naast het schalen van rekenkracht per stap, wat nieuwe mogelijkheden biedt voor het trainen van adaptieve agenten.
English
The current paradigm of test-time scaling relies on generating long reasoning traces ("thinking" more) before producing a response. In agent problems that require interaction, this can be done by generating thinking traces before acting in the world. However, this process does not allow agents to acquire new information from the environment or adapt their behavior over time. In this work, we propose to scale test-time interaction, an untapped dimension of test-time scaling that increases the agent's interaction horizon to enable running rich behaviors such as exploration, backtracking, and dynamic re-planning within a single rollout. To demonstrate the promise of this scaling dimension, we study the domain of web agents. We first show that even prompting-based interaction scaling without any training can improve task success on web benchmarks non-trivially. Building on this, we introduce TTI (Test-Time Interaction), a curriculum-based online reinforcement learning (RL) approach that trains agents by adaptively adjusting their rollout lengths. Using a Gemma 3 12B model, TTI produces state-of-the-art open-source, open-data web agents on WebVoyager and WebArena benchmarks. We further show that TTI enables agents to balance exploration and exploitation adaptively. Our results establish interaction scaling as a powerful, complementary axis to scaling per-step compute, offering new avenues for training adaptive agents.
PDF62June 11, 2025