Het Opschalen van Rekenkracht tijdens Tests voor Agent-gebaseerd Programmeren

Samenvatting

Test-time scaling is een krachtige methode geworden om grote taalmodellen te verbeteren. Bestaande methoden zijn echter het meest geschikt voor korte, afgebakende outputs die direct vergeleken, gerangschikt of verfijnd kunnen worden. Langetermijn-codeeragenten gaan tegen dit uitgangspunt in: elke poging produceert een uitgebreide trajectorie van acties, observaties, fouten en gedeeltelijke voortgang van de agent. In deze context is de grootste uitdaging niet langer het genereren van meer pogingen, maar het representeren van eerdere ervaringen in een vorm waar effectief uit geselecteerd en die hergebruikt kan worden. Wij stellen een test-time scaling raamwerk voor voor agent-gebaseerd programmeren, gebaseerd op compacte representaties van rollout-trajectorieën. Ons raamwerk zet elke rollout om in een gestructureerde samenvatting die de belangrijkste hypotheses, voortgang en faalmodi behoudt, terwijl details met een laag signaalniveau worden weggefilterd. Deze representatie maakt twee complementaire vormen van inference-time scaling mogelijk. Voor parallelle scaling introduceren we Recursive Tournament Voting (RTV), dat een populatie van rollout-samenvattingen recursief verkleint via vergelijkingen in kleine groepen. Voor sequentiële scaling passen we Parallel-Distill-Refine (PDR) aan voor de agent-setting door nieuwe rollouts te conditioneren op samenvattingen die uit eerdere pogingen zijn gedistilleerd. Onze methode verbetert consequent de prestaties van geavanceerde codeeragenten in zowel SWE-Bench Verified als Terminal-Bench v2.0. Claude-4.5-Opus verbetert bijvoorbeeld van 70,9% naar 77,6% op SWE-Bench Verified (mini-SWE-agent) en van 46,9% naar 59,1% op Terminal-Bench v2.0 (Terminus 1) door gebruik te maken van onze methode. Onze resultaten suggereren dat test-time scaling voor langetermijnagenten fundamenteel een probleem is van representatie, selectie en hergebruik.

English

Test-time scaling has become a powerful way to improve large language models. However, existing methods are best suited to short, bounded outputs that can be directly compared, ranked or refined. Long-horizon coding agents violate this premise: each attempt produces an extended trajectory of actions, observations, errors, and partial progress taken by the agent. In this setting, the main challenge is no longer generating more attempts, but representing prior experience in a form that can be effectively selected from and reused. We propose a test-time scaling framework for agentic coding based on compact representations of rollout trajectories. Our framework converts each rollout into a structured summary that preserves its salient hypotheses, progress, and failure modes while discarding low-signal trace details. This representation enables two complementary forms of inference-time scaling. For parallel scaling, we introduce Recursive Tournament Voting (RTV), which recursively narrows a population of rollout summaries through small-group comparisons. For sequential scaling, we adapt Parallel-Distill-Refine (PDR) to the agentic setting by conditioning new rollouts on summaries distilled from prior attempts. Our method consistently improves the performance of frontier coding agents across SWE-Bench Verified and Terminal-Bench v2.0. For example, by using our method Claude-4.5-Opus improves from 70.9% to 77.6% on SWE-Bench Verified (mini-SWE-agent) and 46.9% to 59.1% on Terminal-Bench v2.0 (Terminus 1). Our results suggest that test-time scaling for long-horizon agents is fundamentally a problem of representation, selection, and reuse.

Het Opschalen van Rekenkracht tijdens Tests voor Agent-gebaseerd Programmeren

Scaling Test-Time Compute for Agentic Coding

Samenvatting

Support