Abstrações temporais emergentes em modelos autorregressivos possibilitam o aprendizado por reforço hierárquico.

Resumo

Modelos autorregressivos de grande escala pré-treinados em previsão do próximo token e ajustados com aprendizagem por reforço (RL) alcançaram sucesso sem precedentes em muitos domínios de problemas. Durante o RL, esses modelos exploram gerando novas saídas, um token por vez. No entanto, amostrar ações token a token pode resultar em aprendizagem altamente ineficiente, particularmente quando as recompensas são esparsas. Aqui, mostramos que é possível superar esse problema agindo e explorando dentro das representações internas de um modelo autorregressivo. Especificamente, para descobrir ações temporalmente abstratas, introduzimos um modelo de sequência de ordem superior e não causal, cujas saídas controlam as ativações do fluxo residual de um modelo autorregressivo base. Em tarefas baseadas em grid world e MuJoCo com estrutura hierárquica, descobrimos que o modelo de ordem superior aprende a comprimir longos trechos de sequências de ativação em controladores internos. Criticamente, cada controlador executa uma sequência de ações comportamentalmente significativas que se desdobram em longas escalas de tempo e são acompanhadas por uma condição de término aprendida, de modo que compor múltiplos controladores ao longo do tempo leva a uma exploração eficiente em tarefas novas. Mostramos que o reforço direto do controlador interno, um processo que denominamos "RL interno", permite o aprendizado a partir de recompensas esparsas em casos onde o ajuste fino padrão por RL falha. Nossos resultados demonstram os benefícios da geração e do reforço de ações latentes em modelos autorregressivos, sugerindo o RL interno como uma via promissora para realizar RL hierárquico dentro de modelos de fundação.

English

Large-scale autoregressive models pretrained on next-token prediction and finetuned with reinforcement learning (RL) have achieved unprecedented success on many problem domains. During RL, these models explore by generating new outputs, one token at a time. However, sampling actions token-by-token can result in highly inefficient learning, particularly when rewards are sparse. Here, we show that it is possible to overcome this problem by acting and exploring within the internal representations of an autoregressive model. Specifically, to discover temporally-abstract actions, we introduce a higher-order, non-causal sequence model whose outputs control the residual stream activations of a base autoregressive model. On grid world and MuJoCo-based tasks with hierarchical structure, we find that the higher-order model learns to compress long activation sequence chunks onto internal controllers. Critically, each controller executes a sequence of behaviorally meaningful actions that unfold over long timescales and are accompanied with a learned termination condition, such that composing multiple controllers over time leads to efficient exploration on novel tasks. We show that direct internal controller reinforcement, a process we term "internal RL", enables learning from sparse rewards in cases where standard RL finetuning fails. Our results demonstrate the benefits of latent action generation and reinforcement in autoregressive models, suggesting internal RL as a promising avenue for realizing hierarchical RL within foundation models.

Abstrações temporais emergentes em modelos autorregressivos possibilitam o aprendizado por reforço hierárquico.

Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning

Resumo

Support