에이전트 코딩을 위한 테스트 타임 컴퓨팅 확장
Scaling Test-Time Compute for Agentic Coding
April 16, 2026
저자: Joongwon Kim, Wannan Yang, Kelvin Niu, Hongming Zhang, Yun Zhu, Eryk Helenowski, Ruan Silva, Zhengxing Chen, Srinivasan Iyer, Manzil Zaheer, Daniel Fried, Hannaneh Hajishirzi, Sanjeev Arora, Gabriel Synnaeve, Ruslan Salakhutdinov, Anirudh Goyal
cs.AI
초록
테스트 타임 스케일링은 대규모 언어 모델의 성능을 향상시키는 강력한 방법으로 자리 잡았습니다. 그러나 기존 방법들은 직접 비교, 순위 지정 또는 개선이 가능한 짧고 범위가 제한된 출력에 가장 적합합니다. 장기적 코딩 에이전트는 이러한 전제를 위반합니다. 각 시도는 에이전트가 수행한 일련의 행동, 관찰, 오류 및 부분적 진행 상황으로 구성된 확장된 궤적을 생성하기 때문입니다. 이러한 설정에서 주요 과제는 더 많은 시도를 생성하는 것이 아니라, 효과적으로 선택하고 재사용할 수 있는 형태로 이전 경험을 표현하는 것입니다. 우리는 롤아웃 궤적의 간결한 표현에 기반한 에이전트 코딩을 위한 테스트 타임 스케일링 프레임워크를 제안합니다. 우리의 프레임워크는 각 롤아웃을 주요 가설, 진행 상황, 실패 모드를 보존하면서 저신호 추적 세부사항은 버리는 구조화된 요약으로 변환합니다. 이 표현은 상호 보완적인 두 가지 형태의 추론 시간 스케일링을 가능하게 합니다. 병렬 스케일링을 위해, 우리는 소그룹 비교를 통해 롤아웃 요약 집단을 재귀적으로 좁혀가는 재귀적 토너먼트 투표(RTV)를 도입합니다. 순차적 스케일링을 위해, 우리는 이전 시도에서 추출된 요약을 조건으로 새로운 롤아웃을 생성하도록 Parallel-Distill-Refine(PDR)을 에이전트 설정에 적용합니다. 우리의 방법은 SWE-Bench Verified와 Terminal-Bench v2.0에서 최첨단 코딩 에이전트의 성능을 꾸준히 향상시킵니다. 예를 들어, 우리의 방법을 사용하면 Claude-4.5-Opus가 SWE-Bench Verified(mini-SWE-agent)에서 70.9%에서 77.6%로, Terminal-Bench v2.0(Terminus 1)에서 46.9%에서 59.1%로 성능이 개선됩니다. 우리의 결과는 장기적 에이전트를 위한 테스트 타임 스케일링이 근본적으로 표현, 선택 및 재사용의 문제임을 시사합니다.
English
Test-time scaling has become a powerful way to improve large language models. However, existing methods are best suited to short, bounded outputs that can be directly compared, ranked or refined. Long-horizon coding agents violate this premise: each attempt produces an extended trajectory of actions, observations, errors, and partial progress taken by the agent. In this setting, the main challenge is no longer generating more attempts, but representing prior experience in a form that can be effectively selected from and reused. We propose a test-time scaling framework for agentic coding based on compact representations of rollout trajectories. Our framework converts each rollout into a structured summary that preserves its salient hypotheses, progress, and failure modes while discarding low-signal trace details. This representation enables two complementary forms of inference-time scaling. For parallel scaling, we introduce Recursive Tournament Voting (RTV), which recursively narrows a population of rollout summaries through small-group comparisons. For sequential scaling, we adapt Parallel-Distill-Refine (PDR) to the agentic setting by conditioning new rollouts on summaries distilled from prior attempts. Our method consistently improves the performance of frontier coding agents across SWE-Bench Verified and Terminal-Bench v2.0. For example, by using our method Claude-4.5-Opus improves from 70.9% to 77.6% on SWE-Bench Verified (mini-SWE-agent) and 46.9% to 59.1% on Terminal-Bench v2.0 (Terminus 1). Our results suggest that test-time scaling for long-horizon agents is fundamentally a problem of representation, selection, and reuse.