LoopRPT: Предварительное обучение с подкреплением для циклических языковых моделей

Аннотация

Петлевые языковые модели (LoopLM) выполняют итеративные латентные вычисления для уточнения внутренних представлений, предлагая перспективную альтернативу явному рассуждению по цепочке мыслей (CoT). Однако существующие парадигмы обучения с подкреплением (RL) в основном нацелены на выходные токены, что создает структурное несоответствие с петлевыми архитектурами, чье рассуждение разворачивается неявно. В данной работе мы предлагаем LoopRPT — фреймворк претренинга с подкреплением, разработанный специально для LoopLM. Переформулируя предсказание следующего токена как задачу рассуждения о следующем токене, LoopRPT назначает сигналы подкрепления непосредственно латентным шагам с использованием эталонного учителя на основе скользящего среднего (EMA) и зашумленных латентных прогонов. Такая формулировка позволяет RL напрямую формировать промежуточные представления, сжимая эффективное рассуждение в меньшее количество итераций. Мы реализуем LoopRPT на архитектуре Ouro для моделей различных масштабов. Результаты показывают, что LoopRPT последовательно улучшает качество представлений на каждом шаге, достигая парето-доминирования в компромиссах между точностью и вычислениями. Примечательно, что значительный прирост на сложных токенах указывает, что LoopRPT улучшает рассуждение на ранних стадиях, а не просто поощряет преждевременный выход. Наши результаты подчеркивают претренинг с подкреплением как принципиальную парадигму для обучения эффективному латентному рассуждению в петлевых моделях.

English

Looped language models (LoopLMs) perform iterative latent computation to refine internal representations, offering a promising alternative to explicit chain-of-thought (CoT) reasoning. However, existing reinforcement learning (RL) paradigms primarily target output tokens, creating a structural mismatch with looped architectures whose reasoning unfolds implicitly. In this work, we propose LoopRPT, a reinforcement pre-training framework tailored for LoopLMs. By reframing next-token prediction as a next-token reasoning task, LoopRPT assigns reinforcement signals directly to latent steps using an EMA teacher reference and noisy latent rollouts. This formulation enables RL to directly shape intermediate representations, compressing effective reasoning into fewer iterations. We instantiate LoopRPT on the Ouro architecture across multiple model scales. Results demonstrate that LoopRPT consistently improves per-step representation quality, achieving Pareto dominance in accuracy-computation trade-offs. Notably, significant gains on hard tokens indicate that LoopRPT enhances early-stage reasoning rather than merely encouraging premature exits. Our findings highlight reinforcement pre-training as a principled paradigm for learning efficient latent reasoning in LoopLMs.

LoopRPT: Предварительное обучение с подкреплением для циклических языковых моделей

LoopRPT: Reinforcement Pre-Training for Looped Language Models

Аннотация

Support