Augmentation des ressources de calcul en phase de test pour le codage agentique

Résumé

L'ajustement à l'inférence est devenu une méthode puissante pour améliorer les grands modèles de langage. Cependant, les méthodes existantes sont mieux adaptées aux productions courtes et délimitées qui peuvent être directement comparées, classées ou affinées. Les agents de programmation à long horizon violent ce postulat : chaque tentative produit une trajectoire étendue d'actions, d'observations, d'erreurs et de progrès partiels réalisés par l'agent. Dans ce contexte, le défi principal n'est plus de générer davantage de tentatives, mais de représenter l'expérience antérieure sous une forme permettant une sélection et une réutilisation efficaces. Nous proposons un cadre d'ajustement à l'inférence pour la programmation agentielle basé sur des représentations compactes des trajectoires de déploiement. Notre cadre convertit chaque déploiement en un résumé structuré qui préserve ses hypothèses saillantes, son progrès et ses modes d'échec, tout en éliminant les détails de trace à faible signal. Cette représentation permet deux formes complémentaires de mise à l'échelle à l'inférence. Pour la mise à l'échelle parallèle, nous introduisons le Vote Tournoi Récursif (RTV), qui réduit récursivement une population de résumés de déploiement via des comparaisons en petits groupes. Pour la mise à l'échelle séquentielle, nous adaptons la méthode Parallèle-Distiller-Raffiner (PDR) au cadre agentiel en conditionnant les nouveaux déploiements sur des résumés distillés à partir des tentatives précédentes. Notre méthode améliore constamment les performances des agents de programmation de pointe sur SWE-Bench Verified et Terminal-Bench v2.0. Par exemple, en utilisant notre méthode, Claude-4.5-Opus passe de 70,9 % à 77,6 % sur SWE-Bench Verified (mini-SWE-agent) et de 46,9 % à 59,1 % sur Terminal-Bench v2.0 (Terminus 1). Nos résultats suggèrent que la mise à l'échelle à l'inférence pour les agents à long horizon est fondamentalement un problème de représentation, de sélection et de réutilisation.

English

Test-time scaling has become a powerful way to improve large language models. However, existing methods are best suited to short, bounded outputs that can be directly compared, ranked or refined. Long-horizon coding agents violate this premise: each attempt produces an extended trajectory of actions, observations, errors, and partial progress taken by the agent. In this setting, the main challenge is no longer generating more attempts, but representing prior experience in a form that can be effectively selected from and reused. We propose a test-time scaling framework for agentic coding based on compact representations of rollout trajectories. Our framework converts each rollout into a structured summary that preserves its salient hypotheses, progress, and failure modes while discarding low-signal trace details. This representation enables two complementary forms of inference-time scaling. For parallel scaling, we introduce Recursive Tournament Voting (RTV), which recursively narrows a population of rollout summaries through small-group comparisons. For sequential scaling, we adapt Parallel-Distill-Refine (PDR) to the agentic setting by conditioning new rollouts on summaries distilled from prior attempts. Our method consistently improves the performance of frontier coding agents across SWE-Bench Verified and Terminal-Bench v2.0. For example, by using our method Claude-4.5-Opus improves from 70.9% to 77.6% on SWE-Bench Verified (mini-SWE-agent) and 46.9% to 59.1% on Terminal-Bench v2.0 (Terminus 1). Our results suggest that test-time scaling for long-horizon agents is fundamentally a problem of representation, selection, and reuse.

Augmentation des ressources de calcul en phase de test pour le codage agentique

Scaling Test-Time Compute for Agentic Coding

Résumé

Support