Масштабирование вычислительных ресурсов на этапе тестирования для агентного программирования

Аннотация

Масштабирование на этапе тестирования стало мощным способом улучшения больших языковых моделей. Однако существующие методы лучше всего подходят для коротких, ограниченных выходных данных, которые можно напрямую сравнивать, ранжировать или дорабатывать. Агенты программирования с длительным горизонтом планирования нарушают эту предпосылку: каждая попытка порождает протяженную траекторию действий, наблюдений, ошибок и частичного прогресса, пройденную агентом. В этом сценарии основная проблема заключается уже не в генерации большего числа попыток, а в представлении предыдущего опыта в форме, которая позволяет эффективно осуществлять выбор и повторное использование. Мы предлагаем фреймворк масштабирования на этапе тестирования для агентного программирования, основанный на компактных представлениях траекторий прогонов. Наш фреймворк преобразует каждый прогон в структурированное резюме, которое сохраняет его ключевые гипотезы, прогресс и режимы сбоев, отбрасывая при этом малозначимые детали трассировки. Это представление позволяет использовать две взаимодополняющие формы масштабирования на этапе вывода. Для параллельного масштабирования мы представляем Рекурсивное Турнирное Голосование (RTV), которое рекурсивно сужает популяцию резюме прогонов посредством сравнений в малых группах. Для последовательного масштабирования мы адаптируем метод Parallel-Distill-Refine (PDR) к агентному сценарию, обусловливая новые прогоны резюме, дистиллированными из предыдущих попыток. Наш метод последовательно улучшает производительность передовых агентов программирования в тестах SWE-Bench Verified и Terminal-Bench v2.0. Например, при использовании нашего метода показатель Claude-4.5-Opus улучшается с 70.9% до 77.6% на SWE-Bench Verified (mini-SWE-agent) и с 46.9% до 59.1% на Terminal-Bench v2.0 (Terminus 1). Наши результаты позволяют предположить, что масштабирование на этапе тестирования для агентов с длительным горизонтом планирования является по своей сути проблемой представления, выбора и повторного использования.

English

Test-time scaling has become a powerful way to improve large language models. However, existing methods are best suited to short, bounded outputs that can be directly compared, ranked or refined. Long-horizon coding agents violate this premise: each attempt produces an extended trajectory of actions, observations, errors, and partial progress taken by the agent. In this setting, the main challenge is no longer generating more attempts, but representing prior experience in a form that can be effectively selected from and reused. We propose a test-time scaling framework for agentic coding based on compact representations of rollout trajectories. Our framework converts each rollout into a structured summary that preserves its salient hypotheses, progress, and failure modes while discarding low-signal trace details. This representation enables two complementary forms of inference-time scaling. For parallel scaling, we introduce Recursive Tournament Voting (RTV), which recursively narrows a population of rollout summaries through small-group comparisons. For sequential scaling, we adapt Parallel-Distill-Refine (PDR) to the agentic setting by conditioning new rollouts on summaries distilled from prior attempts. Our method consistently improves the performance of frontier coding agents across SWE-Bench Verified and Terminal-Bench v2.0. For example, by using our method Claude-4.5-Opus improves from 70.9% to 77.6% on SWE-Bench Verified (mini-SWE-agent) and 46.9% to 59.1% on Terminal-Bench v2.0 (Terminus 1). Our results suggest that test-time scaling for long-horizon agents is fundamentally a problem of representation, selection, and reuse.

Масштабирование вычислительных ресурсов на этапе тестирования для агентного программирования

Scaling Test-Time Compute for Agentic Coding

Аннотация

Support