自己回帰モデルにおける創発的時間抽象化は、階層的強化学習を可能にする
Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning
December 23, 2025
著者: Seijin Kobayashi, Yanick Schimpf, Maximilian Schlegel, Angelika Steger, Maciej Wolczyk, Johannes von Oswald, Nino Scherrer, Kaitlin Maile, Guillaume Lajoie, Blake A. Richards, Rif A. Saurous, James Manyika, Blaise Agüera y Arcas, Alexander Meulemans, João Sacramento
cs.AI
要旨
大規模な自己回帰モデルは、次トークン予測で事前学習され、強化学習(RL)によるファインチューニングを経て、多くの問題領域で前例のない成功を収めています。RL過程では、これらのモデルはトークン単位で新たな出力を生成することで探索を行います。しかし、トークン単位での行動サンプリングは、特に報酬が疎な場合に学習効率が著しく低下する可能性があります。本研究では、自己回帰モデルの内部表現内で行動し探索することでこの問題を克服できることを示します。具体的には、時間的に抽象化された行動を発見するために、高次かつ非因果的な系列モデルを導入し、その出力がベースとなる自己回帰モデルの残差ストリーム活性化を制御します。階層構造を持つグリッドワールドおよびMuJoCoベースのタスクにおいて、高次モデルが長い活性化系列の塊を内部コントローラに圧縮して学習することを確認しました。重要な点は、各コントローラが長時間スケールにわたって展開される行動的に意味のある行動系列を実行し、学習された終了条件を伴うことです。これにより、複数のコントローラを時間的に組み合わせることで、新規タスクにおける効率的な探索が可能になります。我々が「内部RL」と呼ぶプロセスである直接的な内部コントローラ強化学習が、標準的なRLファインチューニングが失敗する状況下でも疎な報酬からの学習を可能にすることを示します。これらの結果は、自己回帰モデルにおける潜在的行動生成と強化学習の利点を実証し、基盤モデル内での階層的RLを実現する有望な道筋として内部RLを示唆しています。
English
Large-scale autoregressive models pretrained on next-token prediction and finetuned with reinforcement learning (RL) have achieved unprecedented success on many problem domains. During RL, these models explore by generating new outputs, one token at a time. However, sampling actions token-by-token can result in highly inefficient learning, particularly when rewards are sparse. Here, we show that it is possible to overcome this problem by acting and exploring within the internal representations of an autoregressive model. Specifically, to discover temporally-abstract actions, we introduce a higher-order, non-causal sequence model whose outputs control the residual stream activations of a base autoregressive model. On grid world and MuJoCo-based tasks with hierarchical structure, we find that the higher-order model learns to compress long activation sequence chunks onto internal controllers. Critically, each controller executes a sequence of behaviorally meaningful actions that unfold over long timescales and are accompanied with a learned termination condition, such that composing multiple controllers over time leads to efficient exploration on novel tasks. We show that direct internal controller reinforcement, a process we term "internal RL", enables learning from sparse rewards in cases where standard RL finetuning fails. Our results demonstrate the benefits of latent action generation and reinforcement in autoregressive models, suggesting internal RL as a promising avenue for realizing hierarchical RL within foundation models.