LoopCoder-v2: однократный цикл для эффективного масштабирования вычислений на этапе тестирования
LoopCoder-v2: Only Loop Once for Efficient Test-Time Computation Scaling
June 16, 2026
Авторы: Jian Yang, Shawn Guo, Wei Zhang, Tianyu Zheng, Yaxin Du, Haau-Sing Li, Jiajun Wu, Yue Song, Yan Xing, Qingsong Cai, Zelong Huang, Chuan Hao, Ran Tao, Xianglong Liu, Wayne Xin Zhao, Mingjie Tang, Weifeng Lv, Ming Zhou, Bryan Dai
cs.AI
Аннотация
Циклические трансформеры (Looped Transformers) масштабируют латентные вычисления за счет многократного применения общих блоков, однако последовательные циклы увеличивают задержку и объем памяти KV-кэша пропорционально количеству циклов. Трансформеры с параллельными циклами (Parallel Loop Transformers, PLT) снижают эти затраты с помощью межцикловых позиционных смещений (cross-loop position offsets, CLP) и внимания с управляющим скользящим окном с общими KV, что делает количество циклов практичным проектным выбором. Поэтому мы исследуем выбор количества циклов в PLT с точки зрения выгоды и затрат: дополнительный цикл может улучшить представления, но CLP также вносит позиционное несоответствие на каждой границе цикла. Мы реализуем это исследование путем обучения LoopCoder-v2, семейства 7B PLT-кодеров с различным количеством циклов, с нуля на 18T токенах, с последующим согласованным дообучением на инструкциях и оценкой. Эмпирически вариант с двумя циклами демонстрирует широкий прирост по сравнению с базовой моделью без циклов в задачах генерации кода, рассуждений о коде, агентной программной инженерии и использования инструментов, улучшая показатели SWE-bench Verified с 43,0 до 64,4 балла и Multi-SWE с 14,0 до 31,0 балла. Напротив, варианты с тремя и более циклами показывают регресс, что выявляет сильно немонотонный эффект количества циклов. Наши диагностические результаты показывают, что второй цикл обеспечивает основное продуктивное улучшение, в то время как последующие циклы дают убывающие, осциллирующие обновления и снижают разнообразие представлений. Поскольку вызванное CLP несоответствие остается примерно фиксированным, в то время как выгода от улучшения уменьшается, затраты на смещения начинают все больше доминировать. Этот компромисс между выгодой и затратами объясняет насыщение PLT при двух циклах и предоставляет диагностические критерии для выбора количества циклов.
English
Looped Transformers scale latent computation by repeatedly applying shared blocks, but sequential looping increases latency and KV-cache memory with the loop count. Parallel loop Transformers (PLT) alleviate this cost through cross-loop position offsets (CLP) and shared-KV gated sliding-window attention, making loop count a practical design choice. We therefore study PLT loop-count selection through a gain--cost view: an extra loop may refine representations, but CLP also introduces a positional mismatch at each loop boundary. We instantiate this study by training LoopCoder-v2, a family of 7B PLT coders with different loop counts, from scratch on 18T tokens, followed by matched instruction tuning and evaluation. Empirically, the two-loop variant delivers broad gains over the non-looped baseline across code generation, code reasoning, agentic software engineering, and tool-use benchmarks, improving SWE-bench Verified from 43.0 to 64.4 points and Multi-SWE from 14.0 to 31.0 points. In contrast, variants with three or more loops regress, revealing a strongly non-monotonic loop-count effect. Our diagnostics show that loop 2 provides the main productive refinement, while later loops yield diminishing, oscillatory updates and reduced representational diversity. Because the CLP-induced mismatch remains roughly fixed as refinement gains shrink, the offset cost increasingly dominates. This gain--cost trade-off explains PLT's saturation at two loops and provides diagnostics for loop-count selection.