LoopUS: Reformulando LLMs preentrenados en modelos de refinamiento latente en bucle

Resumen

El cómputo en bucle ha mostrado ser prometedor para mejorar el rendimiento orientado al razonamiento de los LLM al escalar el cómputo en tiempo de prueba. Sin embargo, los enfoques existentes suelen requerir entrenar modelos recurrentes desde cero o aplicar modificaciones retroactivas disruptivas, lo que implica costos computacionales sustanciales y puede comprometer las capacidades preentrenadas. Para abordar estas limitaciones, presentamos Looped Depth Up-Scaling (LoopUS), un marco de post-entrenamiento que convierte un LLM estándar preentrenado en una arquitectura en bucle. Como contribución técnica clave, LoopUS reformula el LLM preentrenado en un codificador, un bloque de razonamiento en bucle y un decodificador. Esta arquitectura de refinamiento latente se operacionaliza mediante cuatro componentes centrales: (1) descomposición en bloques, guiada por la dinámica de representaciones en etapas; (2) una puerta selectiva dependiente de la entrada para mitigar la deriva del estado oculto; (3) supervisión profunda aleatoria para un aprendizaje eficiente en memoria en horizontes recurrentes largos; y (4) una cabeza de confianza para una salida temprana adaptativa. En conjunto, estos mecanismos transforman un modelo estándar no en bucle en una forma en bucle, estabilizándolo frente a cuellos de botella computacionales y colapso de representaciones. Mediante un bucle latente estable, LoopUS mejora el rendimiento orientado al razonamiento sin extender las trazas generadas ni requerir entrenamiento recurrente desde cero. Para más detalles, consulte https://thrillcrazyer.github.io/LoopUS

English

Looped computation shows promise in improving the reasoning-oriented performance of LLMs by scaling test-time compute. However, existing approaches typically require either training recurrent models from scratch or applying disruptive retrofits, which involve substantial computational costs and may compromise pretrained capabilities. To address these limitations, we introduce Looped Depth Up-Scaling (LoopUS), a post-training framework that converts a standard pretrained LLM into a looped architecture. As a key technical contribution, LoopUS recasts the pretrained LLM into an encoder, a looped reasoning block, and a decoder. It operationalizes this latent-refinement architecture through four core components: (1) block decomposition, guided by staged representation dynamics; (2) an input-dependent selective gate to mitigate hidden-state drift; (3) random deep supervision for memory-efficient learning over long recursive horizons; and (4) a confidence head for adaptive early exiting. Collectively, these mechanisms transform a standard non-looped model into a looped form while stabilizing it against both computational bottlenecks and representation collapse. Through stable latent looping, LoopUS improves reasoning-oriented performance without extending the generated traces or requiring recurrent training from scratch. For more details, see https://thrillcrazyer.github.io/LoopUS

LoopUS: Reformulando LLMs preentrenados en modelos de refinamiento latente en bucle

LoopUS: Recasting Pretrained LLMs into Looped Latent Refinement Models

Resumen

Support