Les abstractions temporelles émergentes dans les modèles autorégressifs permettent l'apprentissage par renforcement hiérarchique.

papers.abstract

Les modèles autorégressifs à grande échelle, pré-entraînés sur la prédiction de token suivant et affinés par apprentissage par renforcement (RL), ont obtenu un succès sans précédent dans de nombreux domaines problématiques. Durant le RL, ces modèles explorent en générant de nouvelles sorties, un token à la fois. Cependant, l'échantillonnage d'actions token par token peut entraîner un apprentissage très inefficace, particulièrement lorsque les récompenses sont rares. Nous montrons ici qu'il est possible de surmonter ce problème en agissant et en explorant au sein des représentations internes d'un modèle autorégressif. Plus précisément, pour découvrir des actions temporellement abstraites, nous introduisons un modèle de séquence d'ordre supérieur et non causal dont les sorties contrôlent les activations du flux résiduel d'un modèle autorégressif de base. Sur des tâches de type grille et basées sur MuJoCo présentant une structure hiérarchique, nous constatons que le modèle d'ordre supérieur apprend à compresser de longs segments de séquences d'activation sur des contrôleurs internes. Fait crucial, chaque contrôleur exécute une séquence d'actions comportementalement significatives qui se déploient sur de longues échelles de temps et sont accompagnées d'une condition de terminaison apprise, de telle sorte que la composition de plusieurs contrôleurs dans le temps conduit à une exploration efficace sur des tâches nouvelles. Nous montrons qu'un renforcement direct des contrôleurs internes, un processus que nous appelons « RL interne », permet d'apprendre à partir de récompenses rares dans des cas où l'affinement RL standard échoue. Nos résultats démontrent les avantages de la génération et du renforcement d'actions latentes dans les modèles autorégressifs, suggérant le RL interne comme une voie prometteuse pour réaliser le RL hiérarchique au sein des modèles de fondation.

English

Large-scale autoregressive models pretrained on next-token prediction and finetuned with reinforcement learning (RL) have achieved unprecedented success on many problem domains. During RL, these models explore by generating new outputs, one token at a time. However, sampling actions token-by-token can result in highly inefficient learning, particularly when rewards are sparse. Here, we show that it is possible to overcome this problem by acting and exploring within the internal representations of an autoregressive model. Specifically, to discover temporally-abstract actions, we introduce a higher-order, non-causal sequence model whose outputs control the residual stream activations of a base autoregressive model. On grid world and MuJoCo-based tasks with hierarchical structure, we find that the higher-order model learns to compress long activation sequence chunks onto internal controllers. Critically, each controller executes a sequence of behaviorally meaningful actions that unfold over long timescales and are accompanied with a learned termination condition, such that composing multiple controllers over time leads to efficient exploration on novel tasks. We show that direct internal controller reinforcement, a process we term "internal RL", enables learning from sparse rewards in cases where standard RL finetuning fails. Our results demonstrate the benefits of latent action generation and reinforcement in autoregressive models, suggesting internal RL as a promising avenue for realizing hierarchical RL within foundation models.

Les abstractions temporelles émergentes dans les modèles autorégressifs permettent l'apprentissage par renforcement hiérarchique.

Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning

papers.abstract

Support