ChatPaper.aiChatPaper

За пределами подражания: обучение с подкреплением для активного латентного планирования

Beyond Imitation: Reinforcement Learning for Active Latent Planning

January 29, 2026
Авторы: Zhi Zheng, Wee Sun Lee
cs.AI

Аннотация

Стремясь к эффективному и плотному цепочечному (CoT) рассуждению, методы латентного вывода выполняют тонкую настройку больших языковых моделей (LLM) для замены дискретных языковых токенов непрерывными латентными токенами. Эти методы потребляют меньше токенов по сравнению с традиционным языковым CoT-рассуждением и обладают потенциалом для планирования в плотном латентном пространстве. Однако текущие латентные токены обычно обучаются с учителем на основе имитации языковых меток. Учитывая, что для одного вопроса может существовать несколько эквивалентных, но различных CoT-меток, пассивное подражание произвольной из них может привести к неоптимальным представлениям латентных токенов и политикам латентного вывода, подрывая потенциальную способность к планированию и создавая заметный разрыв между обучением и тестированием. В данной работе мы подчеркиваем важность активного планирования в пространстве представлений латентных токенов для достижения оптимальной политики латентного вывода. Поэтому мы предлагаем метод Active Latent Planning (ATP-Latent), который моделирует процесс обучения латентных токенов с учителем как условный вариационный автоэнкодер (VAE) для получения более гладкого латентного пространства. Более того, для формирования наиболее обоснованной политики латентного вывода ATP-Latent применяет обучение с подкреплением (RL) с дополнительной наградой за связность, которая вычисляется на основе согласованности между содержимым, декодированным VAE из латентных токенов, что позволяет осуществлять направленный процесс RL. В экспериментах на LLaMA-1B метод ATP-Latent демонстрирует прирост точности на +4,1% и сокращение количества токенов на -3,3% на четырех тестовых наборах по сравнению с передовыми базовыми методами. Код доступен по адресу https://github.com/zz1358m/ATP-Latent-master.
English
Aiming at efficient and dense chain-of-thought (CoT) reasoning, latent reasoning methods fine-tune Large Language Models (LLMs) to substitute discrete language tokens with continuous latent tokens. These methods consume fewer tokens compared to the conventional language CoT reasoning and have the potential to plan in a dense latent space. However, current latent tokens are generally supervised based on imitating language labels. Considering that there can be multiple equivalent but diverse CoT labels for a question, passively imitating an arbitrary one may lead to inferior latent token representations and latent reasoning policies, undermining the potential planning ability and resulting in clear gaps between training and testing. In this work, we emphasize the importance of active planning over the representation space of latent tokens in achieving the optimal latent reasoning policy. So, we propose the Active Latent Planning method (ATP-Latent), which models the supervision process of latent tokens as a conditional variational auto-encoder (VAE) to obtain a smoother latent space. Moreover, to facilitate the most reasonable latent reasoning policy, ATP-Latent conducts reinforcement learning (RL) with an auxiliary coherence reward, which is calculated based on the consistency between VAE-decoded contents of latent tokens, enabling a guided RL process. In experiments on LLaMA-1B, ATP-Latent demonstrates +4.1\% accuracy and -3.3\% tokens on four benchmarks compared to advanced baselines. Codes are available on https://github.com/zz1358m/ATP-Latent-master.
PDF53January 31, 2026