LoopUS: 事前学習済みLLMのループ型潜在精緻化モデルへの再構成
LoopUS: Recasting Pretrained LLMs into Looped Latent Refinement Models
May 10, 2026
著者: Taekhyun Park, Yongjae Lee, Dohee Kim, Hyerim Bae
cs.AI
要旨
ループ計算は、テスト時計算をスケーリングすることでLLMの推論指向性能を向上させる可能性を示している。しかし、既存の手法では通常、リカレントモデルをゼロから訓練するか、破壊的な後付け改造を施す必要があり、多大な計算コストを伴うとともに、事前学習された能力を損なう可能性がある。これらの制約に対処するため、我々はLooped Depth Up-Scaling(LoopUS)を導入する。これは標準的な事前学習済みLLMをループ型アーキテクチャに変換する後訓練フレームワークである。主要な技術的貢献として、LoopUSは事前学習済みLLMをエンコーダ、ループ推論ブロック、デコーダに再構成する。この潜在リファインメントアーキテクチャを実現するために、以下の4つの中核的構成要素を活用する。(1) 段階的表現ダイナミクスに基づくブロック分解、(2) 隠れ状態ドリフトを緩和する入力依存選択ゲート、(3) 長い再帰的ホライズンにわたるメモリ効率的学習のためのランダム深層監視、(4) 適応的早期終了のための信頼度ヘッド。これらのメカニズムは、標準的な非ループモデルをループ型に変換すると同時に、計算上のボトルネックおよび表現崩壊の両方に対して安定化する。安定した潜在ループを通じて、LoopUSは生成トレースを拡張したりゼロからのリカレント訓練を必要とすることなく、推論指向性能を向上させる。詳細については、https://thrillcrazyer.github.io/LoopUS を参照されたい。
English
Looped computation shows promise in improving the reasoning-oriented performance of LLMs by scaling test-time compute. However, existing approaches typically require either training recurrent models from scratch or applying disruptive retrofits, which involve substantial computational costs and may compromise pretrained capabilities. To address these limitations, we introduce Looped Depth Up-Scaling (LoopUS), a post-training framework that converts a standard pretrained LLM into a looped architecture. As a key technical contribution, LoopUS recasts the pretrained LLM into an encoder, a looped reasoning block, and a decoder. It operationalizes this latent-refinement architecture through four core components: (1) block decomposition, guided by staged representation dynamics; (2) an input-dependent selective gate to mitigate hidden-state drift; (3) random deep supervision for memory-efficient learning over long recursive horizons; and (4) a confidence head for adaptive early exiting. Collectively, these mechanisms transform a standard non-looped model into a looped form while stabilizing it against both computational bottlenecks and representation collapse. Through stable latent looping, LoopUS improves reasoning-oriented performance without extending the generated traces or requiring recurrent training from scratch. For more details, see https://thrillcrazyer.github.io/LoopUS