LoopFormer: Трансформеры с эластичной глубиной на основе циклов для латентных рассуждений через модуляцию шорткатов

Аннотация

Петлевые транссформеры стали эффективным и мощным классом моделей для решения задач рассуждений в языковой области. Недавние исследования показывают, что эти модели демонстрируют высокую производительность на алгоритмических задачах и задачах логического вывода, что свидетельствует о наличии у петлевых архитектур индуктивного смещения в сторону латентных рассуждений. Однако в предыдущих подходах количество итераций цикла фиксировалось как на этапе обучения, так и на этапе вывода, оставляя открытым вопрос о том, способны ли такие модели гибко адаптировать свою вычислительную глубину при различных бюджетных ограничениях. Мы представляем LoopFormer — петлевой трансформер, обученный на траекториях переменной длины для обеспечения рассуждений с учетом бюджета. Нашим ключевым вкладом является схема обучения с согласованностью коротких путей, которая выравнивает траектории разной длины, гарантируя, что короткие циклы дают информативные представления, а более длинные продолжают их уточнять. LoopFormer обусловливает каждый цикл текущим временем и размером шага, позволяя представлениям эволюционировать согласованно на траекториях различной длины, а не дрейфовать или стагнировать. Экспериментально LoopFormer демонстрирует устойчивую производительность на тестах языкового моделирования и логического вывода даже при агрессивных вычислительных ограничениях, при этом плавно масштабируясь с увеличением бюджета. Эти результаты показывают, что петлевые трансформеры изначально подходят для адаптивного языкового моделирования, открывая путь к созданию управляемых и бюджетно-ориентированных больших языковых моделей.

English

Looped Transformers have emerged as an efficient and powerful class of models for reasoning in the language domain. Recent studies show that these models achieve strong performance on algorithmic and reasoning tasks, suggesting that looped architectures possess an inductive bias toward latent reasoning. However, prior approaches fix the number of loop iterations during training and inference, leaving open the question of whether these models can flexibly adapt their computational depth under variable compute budgets. We introduce LoopFormer, a looped Transformer trained on variable-length trajectories to enable budget-conditioned reasoning. Our core contribution is a shortcut-consistency training scheme that aligns trajectories of different lengths, ensuring that shorter loops yield informative representations while longer loops continue to refine them. LoopFormer conditions each loop on the current time and step size, enabling representations to evolve consistently across trajectories of varying length rather than drifting or stagnating. Empirically, LoopFormer demonstrates robust performance on language modeling and reasoning benchmarks even under aggressive compute constraints, while scaling gracefully with additional budget. These results show that looped Transformers are inherently suited for adaptive language modeling, opening a path toward controllable and budget-aware large language models.

LoopFormer: Трансформеры с эластичной глубиной на основе циклов для латентных рассуждений через модуляцию шорткатов

LoopFormer: Elastic-Depth Looped Transformers for Latent Reasoning via Shortcut Modulation

Аннотация

Support