LoopUS: Umformung vortrainierter LLMs in geschleifte latente Verfeinerungsmodelle

Zusammenfassung

Loop-basierte Berechnung zeigt vielversprechende Ansätze zur Verbesserung der argumentationsorientierten Leistung von großen Sprachmodellen (LLMs) durch Skalierung der Testzeit-Berechnung. Bestehende Ansätze erfordern jedoch typischerweise entweder das Training rekurrenter Modelle von Grund auf oder die Anwendung disruptiver Nachrüstungen, die mit erheblichen Rechenkosten verbunden sind und die vorab trainierten Fähigkeiten beeinträchtigen können. Um diese Einschränkungen zu adressieren, führen wir Looped Depth Up-Scaling (LoopUS) ein, ein Nachbearbeitungs-Framework, das ein standardmäßig vortrainiertes LLM in eine Schleifenarchitektur umwandelt. Als zentraler technischer Beitrag formt LoopUS das vortrainierte LLM in einen Encoder, einen geschleiften Argumentationsblock und einen Decoder um. Es operationalisiert diese Architektur zur latenten Verfeinerung durch vier Kernkomponenten: (1) Blockzerlegung, gesteuert durch die Dynamik gestaffelter Repräsentationen; (2) ein eingabeabhängiges selektives Tor zur Abschwächung von Drift der verborgenen Zustände; (3) zufällige Tiefenüberwachung für speichereffizientes Lernen über lange rekursive Horizonte; und (4) einen Konfidenzkopf für adaptives vorzeitiges Beenden. Gemeinsam wandeln diese Mechanismen ein standardmäßiges nicht-geschleiftes Modell in eine geschleifte Form um und stabilisieren es gleichzeitig gegen sowohl rechnerische Engpässe als auch Repräsentationskollaps. Durch stabile latente Schleifenbildung verbessert LoopUS die argumentationsorientierte Leistung, ohne die erzeugten Spuren zu verlängern oder ein rekursives Training von Grund auf zu erfordern. Weitere Details finden Sie unter https://thrillcrazyer.github.io/LoopUS

English

Looped computation shows promise in improving the reasoning-oriented performance of LLMs by scaling test-time compute. However, existing approaches typically require either training recurrent models from scratch or applying disruptive retrofits, which involve substantial computational costs and may compromise pretrained capabilities. To address these limitations, we introduce Looped Depth Up-Scaling (LoopUS), a post-training framework that converts a standard pretrained LLM into a looped architecture. As a key technical contribution, LoopUS recasts the pretrained LLM into an encoder, a looped reasoning block, and a decoder. It operationalizes this latent-refinement architecture through four core components: (1) block decomposition, guided by staged representation dynamics; (2) an input-dependent selective gate to mitigate hidden-state drift; (3) random deep supervision for memory-efficient learning over long recursive horizons; and (4) a confidence head for adaptive early exiting. Collectively, these mechanisms transform a standard non-looped model into a looped form while stabilizing it against both computational bottlenecks and representation collapse. Through stable latent looping, LoopUS improves reasoning-oriented performance without extending the generated traces or requiring recurrent training from scratch. For more details, see https://thrillcrazyer.github.io/LoopUS

LoopUS: Umformung vortrainierter LLMs in geschleifte latente Verfeinerungsmodelle

LoopUS: Recasting Pretrained LLMs into Looped Latent Refinement Models

Zusammenfassung

Support