Penser vs. Agir : Des agents qui raisonnent en augmentant les interactions au moment du test

papers.abstract

Le paradigme actuel de mise à l'échelle au moment du test repose sur la génération de longues traces de raisonnement ("penser davantage") avant de produire une réponse. Dans les problèmes d'agents nécessitant une interaction, cela peut être réalisé en générant des traces de réflexion avant d'agir dans l'environnement. Cependant, ce processus ne permet pas aux agents d'acquérir de nouvelles informations de l'environnement ou d'adapter leur comportement au fil du temps. Dans ce travail, nous proposons de mettre à l'échelle l'interaction au moment du test, une dimension inexploitée de la mise à l'échelle au moment du test qui augmente l'horizon d'interaction de l'agent pour permettre l'exécution de comportements riches tels que l'exploration, le retour en arrière et la re-planification dynamique au sein d'un seul déploiement. Pour démontrer le potentiel de cette dimension de mise à l'échelle, nous étudions le domaine des agents web. Nous montrons d'abord que même une mise à l'échelle de l'interaction basée sur des prompts, sans aucun entraînement, peut améliorer de manière non triviale la réussite des tâches sur des benchmarks web. Sur cette base, nous introduisons TTI (Test-Time Interaction), une approche d'apprentissage par renforcement en ligne (RL) basée sur un curriculum qui entraîne les agents en ajustant de manière adaptative la longueur de leurs déploiements. En utilisant un modèle Gemma 3 12B, TTI produit des agents web open-source et open-data de pointe sur les benchmarks WebVoyager et WebArena. Nous montrons en outre que TTI permet aux agents d'équilibrer de manière adaptative l'exploration et l'exploitation. Nos résultats établissent la mise à l'échelle de l'interaction comme un axe puissant et complémentaire à la mise à l'échelle du calcul par étape, ouvrant de nouvelles voies pour l'entraînement d'agents adaptatifs.

English

The current paradigm of test-time scaling relies on generating long reasoning traces ("thinking" more) before producing a response. In agent problems that require interaction, this can be done by generating thinking traces before acting in the world. However, this process does not allow agents to acquire new information from the environment or adapt their behavior over time. In this work, we propose to scale test-time interaction, an untapped dimension of test-time scaling that increases the agent's interaction horizon to enable running rich behaviors such as exploration, backtracking, and dynamic re-planning within a single rollout. To demonstrate the promise of this scaling dimension, we study the domain of web agents. We first show that even prompting-based interaction scaling without any training can improve task success on web benchmarks non-trivially. Building on this, we introduce TTI (Test-Time Interaction), a curriculum-based online reinforcement learning (RL) approach that trains agents by adaptively adjusting their rollout lengths. Using a Gemma 3 12B model, TTI produces state-of-the-art open-source, open-data web agents on WebVoyager and WebArena benchmarks. We further show that TTI enables agents to balance exploration and exploitation adaptively. Our results establish interaction scaling as a powerful, complementary axis to scaling per-step compute, offering new avenues for training adaptive agents.

Penser vs. Agir : Des agents qui raisonnent en augmentant les interactions au moment du test

Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

papers.abstract

Support