생각 vs. 실행: 테스트 시간 상호작용 확장을 통해 추론하는 에이전트
Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction
June 9, 2025
저자: Junhong Shen, Hao Bai, Lunjun Zhang, Yifei Zhou, Amrith Setlur, Shengbang Tong, Diego Caples, Nan Jiang, Tong Zhang, Ameet Talwalkar, Aviral Kumar
cs.AI
초록
현재의 테스트 시간 스케일링 패러다임은 응답을 생성하기 전에 긴 추론 흔적("생각"을 더 많이 하는 것)을 생성하는 데 의존합니다. 상호작용이 필요한 에이전트 문제에서는 세계에서 행동하기 전에 생각 흔적을 생성함으로써 이를 수행할 수 있습니다. 그러나 이 과정은 에이전트가 환경으로부터 새로운 정보를 획득하거나 시간이 지남에 따라 행동을 적응시킬 수 있도록 허용하지 않습니다. 본 연구에서는 테스트 시간 상호작용을 스케일링하는 것을 제안합니다. 이는 테스트 시간 스케일링의 미개척된 차원으로, 에이전트의 상호작용 지평을 확장하여 단일 롤아웃 내에서 탐색, 역추적, 동적 재계획과 같은 풍부한 행동을 실행할 수 있도록 합니다. 이 스케일링 차원의 잠재력을 입증하기 위해 웹 에이전트 도메인을 연구합니다. 먼저, 어떠한 훈련도 없이 프롬프트 기반 상호작용 스케일링만으로도 웹 벤치마크에서 작업 성공률을 비약적으로 향상시킬 수 있음을 보여줍니다. 이를 바탕으로, TTI(Test-Time Interaction)를 소개합니다. TTI는 커리큘럼 기반 온라인 강화 학습(RL) 접근법으로, 에이전트의 롤아웃 길이를 적응적으로 조정하여 훈련합니다. Gemma 3 12B 모델을 사용하여, TTI는 WebVoyager 및 WebArena 벤치마크에서 최첨단 오픈소스, 오픈데이터 웹 에이전트를 생성합니다. 또한, TTI가 에이전트가 탐색과 활용을 적응적으로 균형 있게 수행할 수 있도록 한다는 것을 추가로 보여줍니다. 우리의 결과는 상호작용 스케일링이 단계별 계산 스케일링에 대한 강력하고 보완적인 축으로서, 적응형 에이전트 훈련을 위한 새로운 길을 제시함을 입증합니다.
English
The current paradigm of test-time scaling relies on generating long reasoning
traces ("thinking" more) before producing a response. In agent problems that
require interaction, this can be done by generating thinking traces before
acting in the world. However, this process does not allow agents to acquire new
information from the environment or adapt their behavior over time. In this
work, we propose to scale test-time interaction, an untapped dimension of
test-time scaling that increases the agent's interaction horizon to enable
running rich behaviors such as exploration, backtracking, and dynamic
re-planning within a single rollout. To demonstrate the promise of this scaling
dimension, we study the domain of web agents. We first show that even
prompting-based interaction scaling without any training can improve task
success on web benchmarks non-trivially. Building on this, we introduce TTI
(Test-Time Interaction), a curriculum-based online reinforcement learning (RL)
approach that trains agents by adaptively adjusting their rollout lengths.
Using a Gemma 3 12B model, TTI produces state-of-the-art open-source, open-data
web agents on WebVoyager and WebArena benchmarks. We further show that TTI
enables agents to balance exploration and exploitation adaptively. Our results
establish interaction scaling as a powerful, complementary axis to scaling
per-step compute, offering new avenues for training adaptive agents.