Escalonamento de Computação em Tempo de Teste para Codificação Agente

Resumo

A escalagem em tempo de teste tornou-se uma forma poderosa de melhorar modelos de linguagem grandes. No entanto, os métodos existentes são mais adequados para saídas curtas e delimitadas que podem ser comparadas, classificadas ou refinadas diretamente. Os agentes de codificação de longo horizonte violam esta premissa: cada tentativa produz uma trajetória estendida de ações, observações, erros e progressos parciais realizados pelo agente. Neste contexto, o principal desafio deixa de ser gerar mais tentativas, mas sim representar a experiência prévia de uma forma que permita uma seleção e reutilização eficazes. Propomos uma estrutura de escalagem em tempo de teste para codificação agentiva baseada em representações compactas de trajetórias de execução (rollouts). Nossa estrutura converte cada execução num resumo estruturado que preserva as suas hipóteses salientes, progresso e modos de falha, descartando ao mesmo tempo os detalhes de baixo sinal do rastreio. Esta representação permite duas formas complementares de escalagem no momento da inferência. Para a escalagem paralela, introduzimos a Votação por Torneio Recursiva (RTV), que restringe recursivamente uma população de resumos de execução através de comparações em pequenos grupos. Para a escalagem sequencial, adaptamos o Paradigma Paralelo-Destilar-Refinar (PDR) ao contexto agentivo, condicionando novas execuções a resumos destilados de tentativas anteriores. O nosso método melhora consistentemente o desempenho de agentes de codificação de ponta nas benchmarks SWE-Bench Verified e Terminal-Bench v2.0. Por exemplo, ao usar o nosso método, o Claude-4.5-Opus melhora de 70,9% para 77,6% no SWE-Bench Verified (mini-SWE-agent) e de 46,9% para 59,1% no Terminal-Bench v2.0 (Terminus 1). Os nossos resultados sugerem que a escalagem em tempo de teste para agentes de longo horizonte é fundamentalmente um problema de representação, seleção e reutilização.

English

Test-time scaling has become a powerful way to improve large language models. However, existing methods are best suited to short, bounded outputs that can be directly compared, ranked or refined. Long-horizon coding agents violate this premise: each attempt produces an extended trajectory of actions, observations, errors, and partial progress taken by the agent. In this setting, the main challenge is no longer generating more attempts, but representing prior experience in a form that can be effectively selected from and reused. We propose a test-time scaling framework for agentic coding based on compact representations of rollout trajectories. Our framework converts each rollout into a structured summary that preserves its salient hypotheses, progress, and failure modes while discarding low-signal trace details. This representation enables two complementary forms of inference-time scaling. For parallel scaling, we introduce Recursive Tournament Voting (RTV), which recursively narrows a population of rollout summaries through small-group comparisons. For sequential scaling, we adapt Parallel-Distill-Refine (PDR) to the agentic setting by conditioning new rollouts on summaries distilled from prior attempts. Our method consistently improves the performance of frontier coding agents across SWE-Bench Verified and Terminal-Bench v2.0. For example, by using our method Claude-4.5-Opus improves from 70.9% to 77.6% on SWE-Bench Verified (mini-SWE-agent) and 46.9% to 59.1% on Terminal-Bench v2.0 (Terminus 1). Our results suggest that test-time scaling for long-horizon agents is fundamentally a problem of representation, selection, and reuse.

Escalonamento de Computação em Tempo de Teste para Codificação Agente

Scaling Test-Time Compute for Agentic Coding

Resumo

Support