LoopCoder-v2: Solo un bucle para una escalabilidad eficiente del cómputo en tiempo de prueba

Resumen

Los Transformers en Bucle escalan el cómputo latente mediante la aplicación repetida de bloques compartidos, pero el bucle secuencial aumenta la latencia y la memoria de caché KV en función del número de iteraciones. Los Transformers de Bucle Paralelo (PLT) mitigan este coste mediante desplazamientos de posición entre bucles (CLP) y atención de ventana deslizante con compuerta y KV compartido, lo que convierte el número de bucles en una elección de diseño práctica. Por ello, estudiamos la selección del número de bucles en PLT desde una perspectiva ganancia-coste: un bucle adicional puede refinar las representaciones, pero CLP también introduce un desajuste posicional en cada límite de bucle. Concretamos este estudio entrenando LoopCoder-v2, una familia de codificadores PLT de 7B con diferentes números de bucles, desde cero en 18T tokens, seguido de un ajuste por instrucciones y evaluación emparejados. Empíricamente, la variante con dos bucles ofrece mejoras amplias respecto a la línea base sin bucles en tareas de generación de código, razonamiento sobre código, ingeniería de software agente y uso de herramientas, mejorando SWE-bench Verified de 43,0 a 64,4 puntos y Multi-SWE de 14,0 a 31,0 puntos. En contraste, las variantes con tres o más bucles retroceden, revelando un efecto fuertemente no monótono del número de bucles. Nuestros diagnósticos muestran que el bucle 2 proporciona el principal refinamiento productivo, mientras que los bucles posteriores producen actualizaciones decrecientes y oscilatorias, así como una diversidad representacional reducida. Dado que el desajuste inducido por CLP permanece aproximadamente fijo mientras las ganancias de refinamiento se reducen, el coste del desajuste se vuelve cada vez más dominante. Este compromiso ganancia-coste explica la saturación de PLT en dos bucles y proporciona diagnósticos para la selección del número de bucles.

English

Looped Transformers scale latent computation by repeatedly applying shared blocks, but sequential looping increases latency and KV-cache memory with the loop count. Parallel loop Transformers (PLT) alleviate this cost through cross-loop position offsets (CLP) and shared-KV gated sliding-window attention, making loop count a practical design choice. We therefore study PLT loop-count selection through a gain--cost view: an extra loop may refine representations, but CLP also introduces a positional mismatch at each loop boundary. We instantiate this study by training LoopCoder-v2, a family of 7B PLT coders with different loop counts, from scratch on 18T tokens, followed by matched instruction tuning and evaluation. Empirically, the two-loop variant delivers broad gains over the non-looped baseline across code generation, code reasoning, agentic software engineering, and tool-use benchmarks, improving SWE-bench Verified from 43.0 to 64.4 points and Multi-SWE from 14.0 to 31.0 points. In contrast, variants with three or more loops regress, revealing a strongly non-monotonic loop-count effect. Our diagnostics show that loop 2 provides the main productive refinement, while later loops yield diminishing, oscillatory updates and reduced representational diversity. Because the CLP-induced mismatch remains roughly fixed as refinement gains shrink, the offset cost increasingly dominates. This gain--cost trade-off explains PLT's saturation at two loops and provides diagnostics for loop-count selection.