Skalierung von Testzeit-Rechenleistung für agentenbasierte Programmierung

Zusammenfassung

Test-Time-Scaling hat sich zu einer leistungsstarken Methode entwickelt, um große Sprachmodelle zu verbessern. Bestehende Methoden sind jedoch am besten für kurze, begrenzte Ausgaben geeignet, die direkt verglichen, bewertet oder verfeinert werden können. Langfristig agierende Code-Agenten verletzen diese Prämisse: Jeder Versuch erzeugt eine erweiterte Trajektorie von Aktionen, Beobachtungen, Fehlern und Teilerfolgen, die der Agent durchläuft. In diesem Szenario besteht die Hauptherausforderung nicht länger darin, mehr Versuche zu generieren, sondern frühere Erfahrungen in einer Form darzustellen, aus der effektiv ausgewählt und die wiederverwendet werden können. Wir schlagen ein Test-Time-Scaling-Framework für agentenbasierte Codierung vor, das auf kompakten Repräsentationen von Rollout-Trajektorien basiert. Unser Framework wandelt jeden Rollout in eine strukturierte Zusammenfassung um, die dessen wesentliche Hypothesen, Fortschritte und Fehlermodi bewahrt, während detailschwache Trace-Informationen verworfen werden. Diese Repräsentation ermöglicht zwei komplementäre Formen des Inferenz-Time-Scalings. Für paralleles Scaling führen wir Recursive Tournament Voting (RTV) ein, das eine Population von Rollout-Zusammenfassungen durch Kleingruppenvergleiche rekursiv eingrenzt. Für sequenzielles Scaling adaptieren wir Parallel-Distill-Refine (PDR) für den agentenbasierten Ansatz, indem neue Rollouts auf Zusammenfassungen konditioniert werden, die aus vorherigen Versuchen destilliert wurden. Unsere Methode verbessert konsistent die Leistung von führenden Code-Agenten in SWE-Bench Verified und Terminal-Bench v2.0. So verbessert sich beispielsweise Claude-4.5-Opus durch den Einsatz unserer Methode von 70,9 % auf 77,6 % bei SWE-Bench Verified (mini-SWE-agent) und von 46,9 % auf 59,1 % bei Terminal-Bench v2.0 (Terminus 1). Unsere Ergebnisse legen nahe, dass Test-Time-Scaling für langfristig agierende Agenten grundsätzlich ein Problem der Repräsentation, Selektion und Wiederverwendung ist.

English

Test-time scaling has become a powerful way to improve large language models. However, existing methods are best suited to short, bounded outputs that can be directly compared, ranked or refined. Long-horizon coding agents violate this premise: each attempt produces an extended trajectory of actions, observations, errors, and partial progress taken by the agent. In this setting, the main challenge is no longer generating more attempts, but representing prior experience in a form that can be effectively selected from and reused. We propose a test-time scaling framework for agentic coding based on compact representations of rollout trajectories. Our framework converts each rollout into a structured summary that preserves its salient hypotheses, progress, and failure modes while discarding low-signal trace details. This representation enables two complementary forms of inference-time scaling. For parallel scaling, we introduce Recursive Tournament Voting (RTV), which recursively narrows a population of rollout summaries through small-group comparisons. For sequential scaling, we adapt Parallel-Distill-Refine (PDR) to the agentic setting by conditioning new rollouts on summaries distilled from prior attempts. Our method consistently improves the performance of frontier coding agents across SWE-Bench Verified and Terminal-Bench v2.0. For example, by using our method Claude-4.5-Opus improves from 70.9% to 77.6% on SWE-Bench Verified (mini-SWE-agent) and 46.9% to 59.1% on Terminal-Bench v2.0 (Terminus 1). Our results suggest that test-time scaling for long-horizon agents is fundamentally a problem of representation, selection, and reuse.

Skalierung von Testzeit-Rechenleistung für agentenbasierte Programmierung

Scaling Test-Time Compute for Agentic Coding

Zusammenfassung

Support