Pensar vs. Actuar: Agentes que Razonan mediante la Escalabilidad de la Interacción en Tiempo de Prueba
Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction
June 9, 2025
Autores: Junhong Shen, Hao Bai, Lunjun Zhang, Yifei Zhou, Amrith Setlur, Shengbang Tong, Diego Caples, Nan Jiang, Tong Zhang, Ameet Talwalkar, Aviral Kumar
cs.AI
Resumen
El paradigma actual de escalado en tiempo de prueba se basa en generar trazas de razonamiento largas ("pensar" más) antes de producir una respuesta. En problemas de agentes que requieren interacción, esto puede hacerse generando trazas de pensamiento antes de actuar en el mundo. Sin embargo, este proceso no permite que los agentes adquieran nueva información del entorno ni adapten su comportamiento con el tiempo. En este trabajo, proponemos escalar la interacción en tiempo de prueba, una dimensión inexplorada del escalado en tiempo de prueba que aumenta el horizonte de interacción del agente para permitir la ejecución de comportamientos complejos, como exploración, retroceso y replanificación dinámica, dentro de una única ejecución. Para demostrar el potencial de esta dimensión de escalado, estudiamos el dominio de los agentes web. Primero mostramos que incluso el escalado de interacción basado en prompts, sin ningún entrenamiento, puede mejorar significativamente el éxito en tareas en benchmarks web. Sobre esta base, introducimos TTI (Test-Time Interaction), un enfoque de aprendizaje por refuerzo (RL) en línea basado en un currículo que entrena a los agentes ajustando adaptativamente la duración de sus ejecuciones. Utilizando un modelo Gemma 3 12B, TTI produce agentes web de código abierto y datos abiertos de última generación en los benchmarks WebVoyager y WebArena. Además, demostramos que TTI permite a los agentes equilibrar adaptativamente la exploración y la explotación. Nuestros resultados establecen el escalado de interacción como un eje poderoso y complementario al escalado de cómputo por paso, ofreciendo nuevas vías para entrenar agentes adaptativos.
English
The current paradigm of test-time scaling relies on generating long reasoning
traces ("thinking" more) before producing a response. In agent problems that
require interaction, this can be done by generating thinking traces before
acting in the world. However, this process does not allow agents to acquire new
information from the environment or adapt their behavior over time. In this
work, we propose to scale test-time interaction, an untapped dimension of
test-time scaling that increases the agent's interaction horizon to enable
running rich behaviors such as exploration, backtracking, and dynamic
re-planning within a single rollout. To demonstrate the promise of this scaling
dimension, we study the domain of web agents. We first show that even
prompting-based interaction scaling without any training can improve task
success on web benchmarks non-trivially. Building on this, we introduce TTI
(Test-Time Interaction), a curriculum-based online reinforcement learning (RL)
approach that trains agents by adaptively adjusting their rollout lengths.
Using a Gemma 3 12B model, TTI produces state-of-the-art open-source, open-data
web agents on WebVoyager and WebArena benchmarks. We further show that TTI
enables agents to balance exploration and exploitation adaptively. Our results
establish interaction scaling as a powerful, complementary axis to scaling
per-step compute, offering new avenues for training adaptive agents.