Las abstracciones temporales emergentes en los modelos autorregresivos permiten el aprendizaje por refuerzo jerárquico.
Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning
December 23, 2025
Autores: Seijin Kobayashi, Yanick Schimpf, Maximilian Schlegel, Angelika Steger, Maciej Wolczyk, Johannes von Oswald, Nino Scherrer, Kaitlin Maile, Guillaume Lajoie, Blake A. Richards, Rif A. Saurous, James Manyika, Blaise Agüera y Arcas, Alexander Meulemans, João Sacramento
cs.AI
Resumen
Los modelos autorregresivos a gran escala preentrenados en predicción del siguiente token y ajustados mediante aprendizaje por refuerzo (AR) han logrado un éxito sin precedentes en muchos dominios de problemas. Durante el AR, estos modelos exploran generando nuevas salidas, un token a la vez. Sin embargo, muestrear acciones token por token puede resultar en un aprendizaje altamente ineficiente, particularmente cuando las recompensas son dispersas. Aquí demostramos que es posible superar este problema actuando y explorando dentro de las representaciones internas de un modelo autorregresivo. Específicamente, para descubrir acciones temporalmente abstractas, introducimos un modelo de secuencia de orden superior no causal cuyas salidas controlan las activaciones del flujo residual de un modelo autorregresivo base. En tareas basadas en mundos de cuadrícula y MuJoCo con estructura jerárquica, encontramos que el modelo de orden superior aprende a comprimir largos fragmentos de secuencias de activación en controladores internos. Críticamente, cada controlador ejecuta una secuencia de acciones conductualmente significativas que se desarrollan a lo largo de largas escalas de tiempo y van acompañadas de una condición de terminación aprendida, de modo que componer múltiples controladores en el tiempo conduce a una exploración eficiente en tareas novedosas. Demostramos que el refuerzo directo de controladores internos, un proceso que denominamos "AR interno", permite aprender a partir de recompensas dispersas en casos donde el ajuste estándar por AR falla. Nuestros resultados demuestran los beneficios de la generación y el refuerzo de acciones latentes en modelos autorregresivos, sugiriendo el AR interno como una vía prometedora para realizar AR jerárquico dentro de modelos fundacionales.
English
Large-scale autoregressive models pretrained on next-token prediction and finetuned with reinforcement learning (RL) have achieved unprecedented success on many problem domains. During RL, these models explore by generating new outputs, one token at a time. However, sampling actions token-by-token can result in highly inefficient learning, particularly when rewards are sparse. Here, we show that it is possible to overcome this problem by acting and exploring within the internal representations of an autoregressive model. Specifically, to discover temporally-abstract actions, we introduce a higher-order, non-causal sequence model whose outputs control the residual stream activations of a base autoregressive model. On grid world and MuJoCo-based tasks with hierarchical structure, we find that the higher-order model learns to compress long activation sequence chunks onto internal controllers. Critically, each controller executes a sequence of behaviorally meaningful actions that unfold over long timescales and are accompanied with a learned termination condition, such that composing multiple controllers over time leads to efficient exploration on novel tasks. We show that direct internal controller reinforcement, a process we term "internal RL", enables learning from sparse rewards in cases where standard RL finetuning fails. Our results demonstrate the benefits of latent action generation and reinforcement in autoregressive models, suggesting internal RL as a promising avenue for realizing hierarchical RL within foundation models.