Opkomende temporele abstracties in autoregressieve modellen maken hiërarchische reinforcement learning mogelijk.

Samenvatting

Grootschalige autoregressieve modellen die zijn voorgetraind op voorspelling van de volgende token en afgestemd met reinforcement learning (RL) hebben een ongekend succes bereikt in vele probleemdomeinen. Tijdens RL verkennen deze modellen door nieuwe outputs te genereren, token voor token. Het bemonsteren van acties token-voor-token kan echter leiden tot zeer inefficiënt leren, vooral wanneer beloningen schaars zijn. Hier tonen we aan dat het mogelijk is dit probleem te overwinnen door te handelen en te verkennen binnen de interne representaties van een autoregressief model. Specifiek introduceren we, om temporeel abstracte acties te ontdekken, een hogere-orde, niet-causaal sequentiemodel waarvan de outputs de activaties in de 'residual stream' van een basis autoregressief model aansturen. Op grid world- en MuJoCo-gebaseerde taken met hiërarchische structuur vinden we dat het hogere-orde model leert om lange activatiesequentie-chunks te comprimeren op interne controllers. Cruciaal is dat elke controller een reeks gedragsmatig betekenisvolle acties uitvoert die zich over lange tijdschalen ontvouwen en vergezeld gaan van een geleerde beëindigingsvoorwaarde, zodanig dat het samenstellen van meerdere controllers over tijd leidt tot efficiënte exploratie bij nieuwe taken. We tonen aan dat directe interne versterking van controllers, een proces dat we "interne RL" noemen, leren met schaarse beloningen mogelijk maakt in gevallen waar standaard RL-afstemming faalt. Onze resultaten demonstreren de voordelen van latente actiegeneratie en -versterking in autoregressieve modellen, wat interne RL suggereert als een veelbelovende weg om hiërarchische RL binnen foundation models te realiseren.

English

Large-scale autoregressive models pretrained on next-token prediction and finetuned with reinforcement learning (RL) have achieved unprecedented success on many problem domains. During RL, these models explore by generating new outputs, one token at a time. However, sampling actions token-by-token can result in highly inefficient learning, particularly when rewards are sparse. Here, we show that it is possible to overcome this problem by acting and exploring within the internal representations of an autoregressive model. Specifically, to discover temporally-abstract actions, we introduce a higher-order, non-causal sequence model whose outputs control the residual stream activations of a base autoregressive model. On grid world and MuJoCo-based tasks with hierarchical structure, we find that the higher-order model learns to compress long activation sequence chunks onto internal controllers. Critically, each controller executes a sequence of behaviorally meaningful actions that unfold over long timescales and are accompanied with a learned termination condition, such that composing multiple controllers over time leads to efficient exploration on novel tasks. We show that direct internal controller reinforcement, a process we term "internal RL", enables learning from sparse rewards in cases where standard RL finetuning fails. Our results demonstrate the benefits of latent action generation and reinforcement in autoregressive models, suggesting internal RL as a promising avenue for realizing hierarchical RL within foundation models.

Opkomende temporele abstracties in autoregressieve modellen maken hiërarchische reinforcement learning mogelijk.

Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning

Samenvatting

Support