Nächste Einbettungsvorhersage macht Weltmodelle stärker
Next Embedding Prediction Makes World Models Stronger
March 3, 2026
Autoren: George Bredis, Nikita Balagansky, Daniil Gavrilov, Ruslan Rakhimov
cs.AI
Zusammenfassung
Die Erfassung zeitlicher Abhängigkeiten ist entscheidend für modellbasierte Verstärkungslernen (MBRL) in teilweise beobachtbaren, hochdimensionalen Domänen. Wir stellen NE-Dreamer vor, einen dekodiererfreien MBRL-Agenten, der einen temporalen Transformer nutzt, um Encoder-Einbettungen für den nächsten Schritt aus latenten Zustandssequenzen vorherzusagen und dabei die zeitliche prädiktive Ausrichtung im Repräsentationsraum direkt optimiert. Dieser Ansatz ermöglicht es NE-Dreamer, kohärente, vorhersagende Zustandsrepräsentationen ohne Rekonstruktionsverluste oder zusätzliche Supervision zu erlernen. Auf der DeepMind Control Suite erreicht NE-Dreamer eine vergleichbare oder bessere Leistung als DreamerV3 und führende dekodiererfreie Agenten. Auf einer anspruchsvollen Teilmenge von DMLab-Aufgaben, die Gedächtnis und räumliches Schlussfolgern erfordern, erzielt NE-Dreamer erhebliche Verbesserungen. Diese Ergebnisse etablieren die Next-Embedding-Vorhersage mit temporalen Transforms als effektives, skalierbares Framework für MBRL in komplexen, teilweise beobachtbaren Umgebungen.
English
Capturing temporal dependencies is critical for model-based reinforcement learning (MBRL) in partially observable, high-dimensional domains. We introduce NE-Dreamer, a decoder-free MBRL agent that leverages a temporal transformer to predict next-step encoder embeddings from latent state sequences, directly optimizing temporal predictive alignment in representation space. This approach enables NE-Dreamer to learn coherent, predictive state representations without reconstruction losses or auxiliary supervision. On the DeepMind Control Suite, NE-Dreamer matches or exceeds the performance of DreamerV3 and leading decoder-free agents. On a challenging subset of DMLab tasks involving memory and spatial reasoning, NE-Dreamer achieves substantial gains. These results establish next-embedding prediction with temporal transformers as an effective, scalable framework for MBRL in complex, partially observable environments.