Denken vs. Handeln: Agenten, die durch Skalierung von Testzeit-Interaktionen schlussfolgern
Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction
June 9, 2025
Autoren: Junhong Shen, Hao Bai, Lunjun Zhang, Yifei Zhou, Amrith Setlur, Shengbang Tong, Diego Caples, Nan Jiang, Tong Zhang, Ameet Talwalkar, Aviral Kumar
cs.AI
Zusammenfassung
Das aktuelle Paradigma des Testzeit-Skalierens beruht darauf, lange Denkprozesse („mehr nachdenken“) zu generieren, bevor eine Antwort produziert wird. Bei Agentenproblemen, die Interaktion erfordern, kann dies durch das Generieren von Denkprozessen vor dem Handeln in der Welt erreicht werden. Dieser Prozess ermöglicht es Agenten jedoch nicht, neue Informationen aus der Umgebung zu erlangen oder ihr Verhalten im Laufe der Zeit anzupassen. In dieser Arbeit schlagen wir vor, die Testzeit-Interaktion zu skalieren, eine bisher ungenutzte Dimension des Testzeit-Skalierens, die den Interaktionshorizont des Agenten erweitert, um reichhaltige Verhaltensweisen wie Exploration, Rückverfolgung und dynamische Neuplanung innerhalb eines einzigen Rollouts zu ermöglichen. Um das Potenzial dieser Skalierungsdimension zu demonstrieren, untersuchen wir den Bereich der Web-Agenten. Wir zeigen zunächst, dass selbst eine auf Prompting basierende Interaktionsskalierung ohne jegliches Training die Aufgabenbewältigung auf Web-Benchmarks erheblich verbessern kann. Darauf aufbauend führen wir TTI (Test-Time Interaction) ein, einen curriculum-basierten Online-Reinforcement-Learning (RL)-Ansatz, der Agenten trainiert, indem er ihre Rollout-Längen adaptiv anpasst. Mit einem Gemma 3 12B-Modell erzeugt TTI state-of-the-art Open-Source- und Open-Data-Web-Agenten auf den WebVoyager- und WebArena-Benchmarks. Wir zeigen weiterhin, dass TTI Agenten ermöglicht, Exploration und Ausnutzung adaptiv auszubalancieren. Unsere Ergebnisse etablieren die Interaktionsskalierung als eine leistungsstarke, komplementäre Achse zur Skalierung der Berechnung pro Schritt und eröffnen neue Wege für das Training adaptiver Agenten.
English
The current paradigm of test-time scaling relies on generating long reasoning
traces ("thinking" more) before producing a response. In agent problems that
require interaction, this can be done by generating thinking traces before
acting in the world. However, this process does not allow agents to acquire new
information from the environment or adapt their behavior over time. In this
work, we propose to scale test-time interaction, an untapped dimension of
test-time scaling that increases the agent's interaction horizon to enable
running rich behaviors such as exploration, backtracking, and dynamic
re-planning within a single rollout. To demonstrate the promise of this scaling
dimension, we study the domain of web agents. We first show that even
prompting-based interaction scaling without any training can improve task
success on web benchmarks non-trivially. Building on this, we introduce TTI
(Test-Time Interaction), a curriculum-based online reinforcement learning (RL)
approach that trains agents by adaptively adjusting their rollout lengths.
Using a Gemma 3 12B model, TTI produces state-of-the-art open-source, open-data
web agents on WebVoyager and WebArena benchmarks. We further show that TTI
enables agents to balance exploration and exploitation adaptively. Our results
establish interaction scaling as a powerful, complementary axis to scaling
per-step compute, offering new avenues for training adaptive agents.