Escalado del Cómputo en Tiempo de Prueba para la Codificación Agéntica

Resumen

El escalado en tiempo de prueba se ha convertido en una forma poderosa de mejorar los modelos de lenguaje grandes. Sin embargo, los métodos existentes son más adecuados para salidas cortas y acotadas que pueden compararse, clasificarse o refinarse directamente. Los agentes de codificación de horizonte largo violan esta premisa: cada intento produce una trayectoria extendida de acciones, observaciones, errores y progresos parciales realizados por el agente. En este contexto, el principal desafío ya no es generar más intentos, sino representar la experiencia previa en una forma de la que se pueda seleccionar y reutilizar de manera efectiva. Proponemos un marco de escalado en tiempo de prueba para la codificación agéntica basado en representaciones compactas de las trayectorias de ejecución (rollouts). Nuestro marco convierte cada ejecución en un resumen estructurado que preserva sus hipótesis salientes, progreso y modos de falla, mientras descarta los detalles de traza de baja señal. Esta representación permite dos formas complementarias de escalado en tiempo de inferencia. Para el escalado paralelo, introducimos la Votación por Torneo Recursivo (RTV), que reduce recursivamente una población de resúmenes de ejecución mediante comparaciones en grupos pequeños. Para el escalado secuencial, adaptamos Paralelo-Destilar-Refinar (PDR) al entorno agéntico condicionando nuevas ejecuciones a resúmenes destilados de intentos previos. Nuestro método mejora consistentemente el rendimiento de los agentes de codificación de vanguardia en SWE-Bench Verified y Terminal-Bench v2.0. Por ejemplo, al usar nuestro método, Claude-4.5-Opus mejora del 70.9% al 77.6% en SWE-Bench Verified (mini-SWE-agent) y del 46.9% al 59.1% en Terminal-Bench v2.0 (Terminus 1). Nuestros resultados sugieren que el escalado en tiempo de prueba para agentes de horizonte largo es fundamentalmente un problema de representación, selección y reutilización.

English

Test-time scaling has become a powerful way to improve large language models. However, existing methods are best suited to short, bounded outputs that can be directly compared, ranked or refined. Long-horizon coding agents violate this premise: each attempt produces an extended trajectory of actions, observations, errors, and partial progress taken by the agent. In this setting, the main challenge is no longer generating more attempts, but representing prior experience in a form that can be effectively selected from and reused. We propose a test-time scaling framework for agentic coding based on compact representations of rollout trajectories. Our framework converts each rollout into a structured summary that preserves its salient hypotheses, progress, and failure modes while discarding low-signal trace details. This representation enables two complementary forms of inference-time scaling. For parallel scaling, we introduce Recursive Tournament Voting (RTV), which recursively narrows a population of rollout summaries through small-group comparisons. For sequential scaling, we adapt Parallel-Distill-Refine (PDR) to the agentic setting by conditioning new rollouts on summaries distilled from prior attempts. Our method consistently improves the performance of frontier coding agents across SWE-Bench Verified and Terminal-Bench v2.0. For example, by using our method Claude-4.5-Opus improves from 70.9% to 77.6% on SWE-Bench Verified (mini-SWE-agent) and 46.9% to 59.1% on Terminal-Bench v2.0 (Terminus 1). Our results suggest that test-time scaling for long-horizon agents is fundamentally a problem of representation, selection, and reuse.

Escalado del Cómputo en Tiempo de Prueba para la Codificación Agéntica

Scaling Test-Time Compute for Agentic Coding

Resumen

Support