Entstehende zeitliche Abstraktionen in autoregressiven Modellen ermöglichen hierarchisches Reinforcement Learning.

papers.abstract

Große autoregressive Modelle, die auf Next-Token-Prediction vortrainiert und mit Reinforcement Learning (RL) feinabgestimmt wurden, haben in vielen Problemdomänen beispiellose Erfolge erzielt. Während des RL erkunden diese Modelle durch die Generierung neuer Ausgaben, jeweils ein Token auf einmal. Das schrittweise Sampling von Aktionen Token für Token kann jedoch zu sehr ineffizientem Lernen führen, insbesondere bei spärlichen Belohnungen. Hier zeigen wir, dass es möglich ist, dieses Problem zu überwinden, indem innerhalb der internen Repräsentationen eines autoregressiven Modells gehandelt und erkundet wird. Um zeitlich abstrakte Aktionen zu entdecken, führen wir speziell ein höhergradiges, nicht-kausales Sequenzmodell ein, dessen Ausgaben die Aktivierungen im Residual Stream eines Basis-autoregressiven Modells steuern. In Grid-World- und MuJoCo-basierten Aufgaben mit hierarchischer Struktur stellen wir fest, dass das höhergradige Modell lernt, lange Aktivierungssequenz-Abschnitte auf interne Controller abzubilden. Entscheidend ist, dass jeder Controller eine Sequenz von verhaltensmäßig bedeutsamen Aktionen ausführt, die sich über lange Zeitskalen erstrecken und von einer gelernten Beendigungsbedingung begleitet werden, sodass die Zusammensetzung mehrerer Controller über die Zeit zu effizienter Erkundung bei neuen Aufgaben führt. Wir zeigen, dass direkte interne Verstärkung der Controller – ein Prozess, den wir als "internes RL" bezeichnen – Lernen aus spärlichen Belohnungen in Fällen ermöglicht, in denen standardmäßiges RL-Finetuning versagt. Unsere Ergebnisse demonstrieren die Vorteile latenter Aktionsgenerierung und -verstärkung in autoregressiven Modellen und legen internes RL als einen vielversprechenden Ansatz nahe, um hierarchisches RL innerhalb von Foundation Models zu realisieren.

English

Large-scale autoregressive models pretrained on next-token prediction and finetuned with reinforcement learning (RL) have achieved unprecedented success on many problem domains. During RL, these models explore by generating new outputs, one token at a time. However, sampling actions token-by-token can result in highly inefficient learning, particularly when rewards are sparse. Here, we show that it is possible to overcome this problem by acting and exploring within the internal representations of an autoregressive model. Specifically, to discover temporally-abstract actions, we introduce a higher-order, non-causal sequence model whose outputs control the residual stream activations of a base autoregressive model. On grid world and MuJoCo-based tasks with hierarchical structure, we find that the higher-order model learns to compress long activation sequence chunks onto internal controllers. Critically, each controller executes a sequence of behaviorally meaningful actions that unfold over long timescales and are accompanied with a learned termination condition, such that composing multiple controllers over time leads to efficient exploration on novel tasks. We show that direct internal controller reinforcement, a process we term "internal RL", enables learning from sparse rewards in cases where standard RL finetuning fails. Our results demonstrate the benefits of latent action generation and reinforcement in autoregressive models, suggesting internal RL as a promising avenue for realizing hierarchical RL within foundation models.

Entstehende zeitliche Abstraktionen in autoregressiven Modellen ermöglichen hierarchisches Reinforcement Learning.

Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning

papers.abstract

Support