Pensar vs. Actuar: Agentes que Razonan mediante la Escalabilidad de la Interacción en Tiempo de Prueba

Resumen

El paradigma actual de escalado en tiempo de prueba se basa en generar trazas de razonamiento largas ("pensar" más) antes de producir una respuesta. En problemas de agentes que requieren interacción, esto puede hacerse generando trazas de pensamiento antes de actuar en el mundo. Sin embargo, este proceso no permite que los agentes adquieran nueva información del entorno ni adapten su comportamiento con el tiempo. En este trabajo, proponemos escalar la interacción en tiempo de prueba, una dimensión inexplorada del escalado en tiempo de prueba que aumenta el horizonte de interacción del agente para permitir la ejecución de comportamientos complejos, como exploración, retroceso y replanificación dinámica, dentro de una única ejecución. Para demostrar el potencial de esta dimensión de escalado, estudiamos el dominio de los agentes web. Primero mostramos que incluso el escalado de interacción basado en prompts, sin ningún entrenamiento, puede mejorar significativamente el éxito en tareas en benchmarks web. Sobre esta base, introducimos TTI (Test-Time Interaction), un enfoque de aprendizaje por refuerzo (RL) en línea basado en un currículo que entrena a los agentes ajustando adaptativamente la duración de sus ejecuciones. Utilizando un modelo Gemma 3 12B, TTI produce agentes web de código abierto y datos abiertos de última generación en los benchmarks WebVoyager y WebArena. Además, demostramos que TTI permite a los agentes equilibrar adaptativamente la exploración y la explotación. Nuestros resultados establecen el escalado de interacción como un eje poderoso y complementario al escalado de cómputo por paso, ofreciendo nuevas vías para entrenar agentes adaptativos.

English

The current paradigm of test-time scaling relies on generating long reasoning traces ("thinking" more) before producing a response. In agent problems that require interaction, this can be done by generating thinking traces before acting in the world. However, this process does not allow agents to acquire new information from the environment or adapt their behavior over time. In this work, we propose to scale test-time interaction, an untapped dimension of test-time scaling that increases the agent's interaction horizon to enable running rich behaviors such as exploration, backtracking, and dynamic re-planning within a single rollout. To demonstrate the promise of this scaling dimension, we study the domain of web agents. We first show that even prompting-based interaction scaling without any training can improve task success on web benchmarks non-trivially. Building on this, we introduce TTI (Test-Time Interaction), a curriculum-based online reinforcement learning (RL) approach that trains agents by adaptively adjusting their rollout lengths. Using a Gemma 3 12B model, TTI produces state-of-the-art open-source, open-data web agents on WebVoyager and WebArena benchmarks. We further show that TTI enables agents to balance exploration and exploitation adaptively. Our results establish interaction scaling as a powerful, complementary axis to scaling per-step compute, offering new avenues for training adaptive agents.

Pensar vs. Actuar: Agentes que Razonan mediante la Escalabilidad de la Interacción en Tiempo de Prueba

Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

Resumen

Support