LoopCoder-v2: однократный цикл для эффективного масштабирования вычислений на этапе тестирования

Аннотация

Циклические трансформеры (Looped Transformers) масштабируют латентные вычисления за счет многократного применения общих блоков, однако последовательные циклы увеличивают задержку и объем памяти KV-кэша пропорционально количеству циклов. Трансформеры с параллельными циклами (Parallel Loop Transformers, PLT) снижают эти затраты с помощью межцикловых позиционных смещений (cross-loop position offsets, CLP) и внимания с управляющим скользящим окном с общими KV, что делает количество циклов практичным проектным выбором. Поэтому мы исследуем выбор количества циклов в PLT с точки зрения выгоды и затрат: дополнительный цикл может улучшить представления, но CLP также вносит позиционное несоответствие на каждой границе цикла. Мы реализуем это исследование путем обучения LoopCoder-v2, семейства 7B PLT-кодеров с различным количеством циклов, с нуля на 18T токенах, с последующим согласованным дообучением на инструкциях и оценкой. Эмпирически вариант с двумя циклами демонстрирует широкий прирост по сравнению с базовой моделью без циклов в задачах генерации кода, рассуждений о коде, агентной программной инженерии и использования инструментов, улучшая показатели SWE-bench Verified с 43,0 до 64,4 балла и Multi-SWE с 14,0 до 31,0 балла. Напротив, варианты с тремя и более циклами показывают регресс, что выявляет сильно немонотонный эффект количества циклов. Наши диагностические результаты показывают, что второй цикл обеспечивает основное продуктивное улучшение, в то время как последующие циклы дают убывающие, осциллирующие обновления и снижают разнообразие представлений. Поскольку вызванное CLP несоответствие остается примерно фиксированным, в то время как выгода от улучшения уменьшается, затраты на смещения начинают все больше доминировать. Этот компромисс между выгодой и затратами объясняет насыщение PLT при двух циклах и предоставляет диагностические критерии для выбора количества циклов.

English

Looped Transformers scale latent computation by repeatedly applying shared blocks, but sequential looping increases latency and KV-cache memory with the loop count. Parallel loop Transformers (PLT) alleviate this cost through cross-loop position offsets (CLP) and shared-KV gated sliding-window attention, making loop count a practical design choice. We therefore study PLT loop-count selection through a gain--cost view: an extra loop may refine representations, but CLP also introduces a positional mismatch at each loop boundary. We instantiate this study by training LoopCoder-v2, a family of 7B PLT coders with different loop counts, from scratch on 18T tokens, followed by matched instruction tuning and evaluation. Empirically, the two-loop variant delivers broad gains over the non-looped baseline across code generation, code reasoning, agentic software engineering, and tool-use benchmarks, improving SWE-bench Verified from 43.0 to 64.4 points and Multi-SWE from 14.0 to 31.0 points. In contrast, variants with three or more loops regress, revealing a strongly non-monotonic loop-count effect. Our diagnostics show that loop 2 provides the main productive refinement, while later loops yield diminishing, oscillatory updates and reduced representational diversity. Because the CLP-induced mismatch remains roughly fixed as refinement gains shrink, the offset cost increasingly dominates. This gain--cost trade-off explains PLT's saturation at two loops and provides diagnostics for loop-count selection.