Scalabilità del Calcolo in Fase di Test per la Programmazione Agente-Orientata

Abstract

Il ridimensionamento al momento del test è diventato un metodo potente per migliorare i grandi modelli linguistici. Tuttavia, le tecniche esistenti sono più adatte a output brevi e delimitati che possono essere confrontati, classificati o raffinati direttamente. Gli agenti di codifica a lungo orizzonte violano questa premessa: ogni tentativo produce una traiettoria estesa di azioni, osservazioni, errori e progressi parziali compiuti dall'agente. In questo contesto, la sfida principale non è più generare più tentativi, ma rappresentare l'esperienza precedente in una forma da cui poter selezionare e riutilizzare efficacemente. Proponiamo un framework di ridimensionamento al momento del test per la codifica agentica basato su rappresentazioni compatte delle traiettorie di rollout. Il nostro framework converte ogni rollout in un riepilogo strutturato che preserva le sue ipotesi salienti, i progressi e le modalità di fallimento, scartando nel contempo i dettagli a basso segnale della traccia. Questa rappresentazione abilita due forme complementari di ridimensionamento al momento dell'inferenza. Per il ridimensionamento parallelo, introduciamo il Voto a Torneo Ricorsivo (RTV), che restringe ricorsivamente una popolazione di riepiloghi di rollout attraverso confronti in piccoli gruppi. Per il ridimensionamento sequenziale, adattiamo Parallel-Distill-Refine (PDR) all'ambito agentico condizionando nuovi rollout su riepiloghi distillati da tentativi precedenti. Il nostro metodo migliora costantemente le prestazioni degli agenti di codifica all'avanguardia attraverso SWE-Bench Verified e Terminal-Bench v2.0. Ad esempio, utilizzando il nostro metodo, Claude-4.5-Opus migliora dal 70,9% al 77,6% su SWE-Bench Verified (mini-SWE-agent) e dal 46,9% al 59,1% su Terminal-Bench v2.0 (Terminus 1). I nostri risultati suggeriscono che il ridimensionamento al momento del test per agenti a lungo orizzonte è fondamentalmente un problema di rappresentazione, selezione e riutilizzo.

English

Test-time scaling has become a powerful way to improve large language models. However, existing methods are best suited to short, bounded outputs that can be directly compared, ranked or refined. Long-horizon coding agents violate this premise: each attempt produces an extended trajectory of actions, observations, errors, and partial progress taken by the agent. In this setting, the main challenge is no longer generating more attempts, but representing prior experience in a form that can be effectively selected from and reused. We propose a test-time scaling framework for agentic coding based on compact representations of rollout trajectories. Our framework converts each rollout into a structured summary that preserves its salient hypotheses, progress, and failure modes while discarding low-signal trace details. This representation enables two complementary forms of inference-time scaling. For parallel scaling, we introduce Recursive Tournament Voting (RTV), which recursively narrows a population of rollout summaries through small-group comparisons. For sequential scaling, we adapt Parallel-Distill-Refine (PDR) to the agentic setting by conditioning new rollouts on summaries distilled from prior attempts. Our method consistently improves the performance of frontier coding agents across SWE-Bench Verified and Terminal-Bench v2.0. For example, by using our method Claude-4.5-Opus improves from 70.9% to 77.6% on SWE-Bench Verified (mini-SWE-agent) and 46.9% to 59.1% on Terminal-Bench v2.0 (Terminus 1). Our results suggest that test-time scaling for long-horizon agents is fundamentally a problem of representation, selection, and reuse.

Scalabilità del Calcolo in Fase di Test per la Programmazione Agente-Orientata

Scaling Test-Time Compute for Agentic Coding

Abstract

Support