ChatPaper.aiChatPaper

Возникающие временные абстракции в авторегрессионных моделях обеспечивают иерархическое обучение с подкреплением

Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning

December 23, 2025
Авторы: Seijin Kobayashi, Yanick Schimpf, Maximilian Schlegel, Angelika Steger, Maciej Wolczyk, Johannes von Oswald, Nino Scherrer, Kaitlin Maile, Guillaume Lajoie, Blake A. Richards, Rif A. Saurous, James Manyika, Blaise Agüera y Arcas, Alexander Meulemans, João Sacramento
cs.AI

Аннотация

Крупные авторегрессионные модели, предобученные на предсказании следующего токена и дообученные с подкреплением (RL), достигли беспрецедентных успехов во многих предметных областях. В процессе RL эти модели исследуют пространство, генерируя новые выходные данные по одному токену за раз. Однако выборка действий по токенам может приводить к крайне неэффективному обучению, особенно в условиях разреженных наград. В данной работе мы демонстрируем, что эту проблему можно преодолеть, действуя и исследуя пространство внутри внутренних представлений авторегрессионной модели. В частности, для обнаружения темпорально-абстрактных действий мы вводим модель последовательностей высшего порядка, не являющуюся причинной, выходы которой управляют активациями остаточного потока базовой авторегрессионной модели. На задачах с иерархической структурой, основанных на grid world и MuJoCo, мы обнаружили, что модель высшего порядка обучается сжимать длинные последовательности активаций во внутренние контроллеры. Ключевым моментом является то, что каждый контроллер исполняет последовательность поведенчески значимых действий, разворачивающихся на длительных временных масштабах и сопровождаемых обученным условием завершения, так что композиция нескольких контроллеров во времени приводит к эффективному исследованию новых задач. Мы показываем, что прямое внутреннее подкрепление контроллеров — процесс, который мы называем «внутренним RL» — позволяет обучаться на разреженных наградах в случаях, когда стандартное RL-дообучение не справляется. Наши результаты демонстрируют преимущества генерации и подкрепления латентных действий в авторегрессионных моделях, предлагая внутренний RL в качестве перспективного направления для реализации иерархического RL в рамках фундаментальных моделей.
English
Large-scale autoregressive models pretrained on next-token prediction and finetuned with reinforcement learning (RL) have achieved unprecedented success on many problem domains. During RL, these models explore by generating new outputs, one token at a time. However, sampling actions token-by-token can result in highly inefficient learning, particularly when rewards are sparse. Here, we show that it is possible to overcome this problem by acting and exploring within the internal representations of an autoregressive model. Specifically, to discover temporally-abstract actions, we introduce a higher-order, non-causal sequence model whose outputs control the residual stream activations of a base autoregressive model. On grid world and MuJoCo-based tasks with hierarchical structure, we find that the higher-order model learns to compress long activation sequence chunks onto internal controllers. Critically, each controller executes a sequence of behaviorally meaningful actions that unfold over long timescales and are accompanied with a learned termination condition, such that composing multiple controllers over time leads to efficient exploration on novel tasks. We show that direct internal controller reinforcement, a process we term "internal RL", enables learning from sparse rewards in cases where standard RL finetuning fails. Our results demonstrate the benefits of latent action generation and reinforcement in autoregressive models, suggesting internal RL as a promising avenue for realizing hierarchical RL within foundation models.
PDF252December 27, 2025