ChatPaper.aiChatPaper

자율회귀 모델의 발생적 시간 추상화가 계층적 강화 학습을 가능하게 한다

Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning

December 23, 2025
저자: Seijin Kobayashi, Yanick Schimpf, Maximilian Schlegel, Angelika Steger, Maciej Wolczyk, Johannes von Oswald, Nino Scherrer, Kaitlin Maile, Guillaume Lajoie, Blake A. Richards, Rif A. Saurous, James Manyika, Blaise Agüera y Arcas, Alexander Meulemans, João Sacramento
cs.AI

초록

다음 토큰 예측으로 사전 학습되고 강화 학습(RL)으로 미세 조정된 대규모 자기회귀 모델은 많은 문제 영역에서 전례 없는 성공을 거두었습니다. RL 과정에서 이러한 모델은 새로운 출력을 토큰 단위로 생성하며 탐색을 수행합니다. 그러나 토큰 단위로 행동을 샘플링하는 것은 보상이 희소한 경우 특히 매우 비효율적인 학습을 초래할 수 있습니다. 본 연구에서는 자기회귀 모델의 내부 표현 내에서 행동하고 탐색함으로써 이 문제를 극복할 수 있음을 보여줍니다. 구체적으로, 시간적으로 추상화된 행동(temporally-abstract actions)을 발견하기 위해, 기본 자기회귀 모델의 잔차 스트림 활성화(residual stream activations)를 제어하는 출력을 갖는 고차원 비인과적(non-causal) 시퀀스 모델을 도입합니다. 계층적 구조를 가진 그리드 월드 및 MuJoCo 기반 작업에서, 고차원 모델은 긴 활성화 시퀀스 청크를 내부 제어기(controllers)에 압축하는 방법을 학습하는 것으로 나타났습니다. 중요한 것은, 각 제어기가 장기간에 걸쳐 펼쳐지는 행동적으로 의미 있는 일련의 행동을 실행하고 학습된 종료 조건과 함께 제공되어, 시간에 따라 여러 제어기를 구성하면 새로운 작업에서 효율적인 탐색이 가능해진다는 점입니다. 우리는 "내부 RL(internal RL)"이라 명명한 과정인 직접적인 내부 제어기 강화(direct internal controller reinforcement)가 표준 RL 미세 조정이 실패하는 경우 희소 보상으로부터의 학습을 가능하게 함을 보여줍니다. 우리의 결과는 자기회귀 모델에서 잠재 행동 생성 및 강화의 이점을 입증하며, 내부 RL이 파운데이션 모델 내에서 계층적 RL을 실현하기 위한 유망한 방향임을 시사합니다.
English
Large-scale autoregressive models pretrained on next-token prediction and finetuned with reinforcement learning (RL) have achieved unprecedented success on many problem domains. During RL, these models explore by generating new outputs, one token at a time. However, sampling actions token-by-token can result in highly inefficient learning, particularly when rewards are sparse. Here, we show that it is possible to overcome this problem by acting and exploring within the internal representations of an autoregressive model. Specifically, to discover temporally-abstract actions, we introduce a higher-order, non-causal sequence model whose outputs control the residual stream activations of a base autoregressive model. On grid world and MuJoCo-based tasks with hierarchical structure, we find that the higher-order model learns to compress long activation sequence chunks onto internal controllers. Critically, each controller executes a sequence of behaviorally meaningful actions that unfold over long timescales and are accompanied with a learned termination condition, such that composing multiple controllers over time leads to efficient exploration on novel tasks. We show that direct internal controller reinforcement, a process we term "internal RL", enables learning from sparse rewards in cases where standard RL finetuning fails. Our results demonstrate the benefits of latent action generation and reinforcement in autoregressive models, suggesting internal RL as a promising avenue for realizing hierarchical RL within foundation models.
PDF252December 27, 2025