Le astrazioni temporali emergenti nei modelli autoregressivi abilitano l'apprendimento per rinforzo gerarchico.

Abstract

I modelli autoregressivi su larga scala, pre-addestrati sulla predizione del token successivo e perfezionati con l'apprendimento per rinforzo (RL), hanno ottenuto un successo senza precedenti in molti ambiti problematici. Durante la RL, questi modelli esplorano generando nuovi output, un token alla volta. Tuttavia, campionare le azioni token per token può risultare in un apprendimento altamente inefficiente, specialmente quando le ricompense sono sparse. Qui dimostriamo che è possibile superare questo problema agendo ed esplorando all'interno delle rappresentazioni interne di un modello autoregressivo. Nello specifico, per scoprire azioni temporalmente astratte, introduciamo un modello di sequenza di ordine superiore e non causale i cui output controllano le attivazioni del flusso residuo di un modello autoregressivo base. Su compiti basati su grid world e MuJoCo con struttura gerarchica, scopriamo che il modello di ordine superiore impara a comprimere lunghi chunk di sequenze di attivazione su controller interni. In modo cruciale, ogni controller esegue una sequenza di azioni comportamentalmente significative che si dispiegano su scale temporali lunghe e sono accompagnate da una condizione di terminazione appresa, in modo che la composizione di più controller nel tempo porti a un'esplorazione efficiente su compiti nuovi. Mostriamo che il rinforzo diretto del controller interno, un processo che definiamo "RL interna", consente l'apprendimento da ricompense sparse in casi in cui il perfezionamento RL standard fallisce. I nostri risultati dimostrano i vantaggi della generazione e del rinforzo di azioni latenti nei modelli autoregressivi, suggerendo la RL interna come una strada promettente per realizzare l'RL gerarchica all'interno dei modelli di fondazione.

English

Large-scale autoregressive models pretrained on next-token prediction and finetuned with reinforcement learning (RL) have achieved unprecedented success on many problem domains. During RL, these models explore by generating new outputs, one token at a time. However, sampling actions token-by-token can result in highly inefficient learning, particularly when rewards are sparse. Here, we show that it is possible to overcome this problem by acting and exploring within the internal representations of an autoregressive model. Specifically, to discover temporally-abstract actions, we introduce a higher-order, non-causal sequence model whose outputs control the residual stream activations of a base autoregressive model. On grid world and MuJoCo-based tasks with hierarchical structure, we find that the higher-order model learns to compress long activation sequence chunks onto internal controllers. Critically, each controller executes a sequence of behaviorally meaningful actions that unfold over long timescales and are accompanied with a learned termination condition, such that composing multiple controllers over time leads to efficient exploration on novel tasks. We show that direct internal controller reinforcement, a process we term "internal RL", enables learning from sparse rewards in cases where standard RL finetuning fails. Our results demonstrate the benefits of latent action generation and reinforcement in autoregressive models, suggesting internal RL as a promising avenue for realizing hierarchical RL within foundation models.

Le astrazioni temporali emergenti nei modelli autoregressivi abilitano l'apprendimento per rinforzo gerarchico.

Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning

Abstract

Support