LoopUS: Переосмысление предварительно обученных LLM как циклических моделей уточнения латентного пространства

Аннотация

Зацикленные вычисления демонстрируют потенциал для улучшения производительности больших языковых моделей (LLM), ориентированной на рассуждение, за счет масштабирования вычислительных ресурсов во время тестирования. Однако существующие подходы обычно требуют либо обучения рекуррентных моделей с нуля, либо применения разрушительных модификаций, что влечет за собой значительные вычислительные затраты и может поставить под угрозу предобученные способности. Для преодоления этих ограничений мы представляем LoopUS (Looped Depth Up-Scaling) — послеобучающий фреймворк, который преобразует стандартную предобученную LLM в зацикленную архитектуру. В качестве ключевого технического вклада LoopUS преобразует предобученную LLM в кодировщик, зацикленный блок рассуждения и декодер. Он реализует эту архитектуру скрытого уточнения через четыре ключевых компонента: (1) разложение блоков, направляемое поэтапной динамикой представлений; (2) входозависимый селективный вентиль для смягчения дрейфа скрытого состояния; (3) случайная глубокая супервизия для эффективного по памяти обучения на длинных рекурсивных горизонтах; и (4) голова уверенности для адаптивного раннего выхода. В совокупности эти механизмы преобразуют стандартную незацикленную модель в зацикленную форму, обеспечивая ее стабильность как в отношении вычислительных узких мест, так и коллапса представлений. Благодаря стабильному зацикливанию скрытого состояния LoopUS улучшает производительность, ориентированную на рассуждение, без удлинения генерируемых траекторий и без необходимости рекуррентного обучения с нуля. Для получения дополнительной информации см. https://thrillcrazyer.github.io/LoopUS

English

Looped computation shows promise in improving the reasoning-oriented performance of LLMs by scaling test-time compute. However, existing approaches typically require either training recurrent models from scratch or applying disruptive retrofits, which involve substantial computational costs and may compromise pretrained capabilities. To address these limitations, we introduce Looped Depth Up-Scaling (LoopUS), a post-training framework that converts a standard pretrained LLM into a looped architecture. As a key technical contribution, LoopUS recasts the pretrained LLM into an encoder, a looped reasoning block, and a decoder. It operationalizes this latent-refinement architecture through four core components: (1) block decomposition, guided by staged representation dynamics; (2) an input-dependent selective gate to mitigate hidden-state drift; (3) random deep supervision for memory-efficient learning over long recursive horizons; and (4) a confidence head for adaptive early exiting. Collectively, these mechanisms transform a standard non-looped model into a looped form while stabilizing it against both computational bottlenecks and representation collapse. Through stable latent looping, LoopUS improves reasoning-oriented performance without extending the generated traces or requiring recurrent training from scratch. For more details, see https://thrillcrazyer.github.io/LoopUS

LoopUS: Переосмысление предварительно обученных LLM как циклических моделей уточнения латентного пространства

LoopUS: Recasting Pretrained LLMs into Looped Latent Refinement Models

Аннотация

Support