Denken vs. Handeln: Agenten, die durch Skalierung von Testzeit-Interaktionen schlussfolgern

papers.abstract

Das aktuelle Paradigma des Testzeit-Skalierens beruht darauf, lange Denkprozesse („mehr nachdenken“) zu generieren, bevor eine Antwort produziert wird. Bei Agentenproblemen, die Interaktion erfordern, kann dies durch das Generieren von Denkprozessen vor dem Handeln in der Welt erreicht werden. Dieser Prozess ermöglicht es Agenten jedoch nicht, neue Informationen aus der Umgebung zu erlangen oder ihr Verhalten im Laufe der Zeit anzupassen. In dieser Arbeit schlagen wir vor, die Testzeit-Interaktion zu skalieren, eine bisher ungenutzte Dimension des Testzeit-Skalierens, die den Interaktionshorizont des Agenten erweitert, um reichhaltige Verhaltensweisen wie Exploration, Rückverfolgung und dynamische Neuplanung innerhalb eines einzigen Rollouts zu ermöglichen. Um das Potenzial dieser Skalierungsdimension zu demonstrieren, untersuchen wir den Bereich der Web-Agenten. Wir zeigen zunächst, dass selbst eine auf Prompting basierende Interaktionsskalierung ohne jegliches Training die Aufgabenbewältigung auf Web-Benchmarks erheblich verbessern kann. Darauf aufbauend führen wir TTI (Test-Time Interaction) ein, einen curriculum-basierten Online-Reinforcement-Learning (RL)-Ansatz, der Agenten trainiert, indem er ihre Rollout-Längen adaptiv anpasst. Mit einem Gemma 3 12B-Modell erzeugt TTI state-of-the-art Open-Source- und Open-Data-Web-Agenten auf den WebVoyager- und WebArena-Benchmarks. Wir zeigen weiterhin, dass TTI Agenten ermöglicht, Exploration und Ausnutzung adaptiv auszubalancieren. Unsere Ergebnisse etablieren die Interaktionsskalierung als eine leistungsstarke, komplementäre Achse zur Skalierung der Berechnung pro Schritt und eröffnen neue Wege für das Training adaptiver Agenten.

English

The current paradigm of test-time scaling relies on generating long reasoning traces ("thinking" more) before producing a response. In agent problems that require interaction, this can be done by generating thinking traces before acting in the world. However, this process does not allow agents to acquire new information from the environment or adapt their behavior over time. In this work, we propose to scale test-time interaction, an untapped dimension of test-time scaling that increases the agent's interaction horizon to enable running rich behaviors such as exploration, backtracking, and dynamic re-planning within a single rollout. To demonstrate the promise of this scaling dimension, we study the domain of web agents. We first show that even prompting-based interaction scaling without any training can improve task success on web benchmarks non-trivially. Building on this, we introduce TTI (Test-Time Interaction), a curriculum-based online reinforcement learning (RL) approach that trains agents by adaptively adjusting their rollout lengths. Using a Gemma 3 12B model, TTI produces state-of-the-art open-source, open-data web agents on WebVoyager and WebArena benchmarks. We further show that TTI enables agents to balance exploration and exploitation adaptively. Our results establish interaction scaling as a powerful, complementary axis to scaling per-step compute, offering new avenues for training adaptive agents.

Denken vs. Handeln: Agenten, die durch Skalierung von Testzeit-Interaktionen schlussfolgern

Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

papers.abstract

Support