Nächste Einbettungsvorhersage macht Weltmodelle stärker

Zusammenfassung

Die Erfassung zeitlicher Abhängigkeiten ist entscheidend für modellbasierte Verstärkungslernen (MBRL) in teilweise beobachtbaren, hochdimensionalen Domänen. Wir stellen NE-Dreamer vor, einen dekodiererfreien MBRL-Agenten, der einen temporalen Transformer nutzt, um Encoder-Einbettungen für den nächsten Schritt aus latenten Zustandssequenzen vorherzusagen und dabei die zeitliche prädiktive Ausrichtung im Repräsentationsraum direkt optimiert. Dieser Ansatz ermöglicht es NE-Dreamer, kohärente, vorhersagende Zustandsrepräsentationen ohne Rekonstruktionsverluste oder zusätzliche Supervision zu erlernen. Auf der DeepMind Control Suite erreicht NE-Dreamer eine vergleichbare oder bessere Leistung als DreamerV3 und führende dekodiererfreie Agenten. Auf einer anspruchsvollen Teilmenge von DMLab-Aufgaben, die Gedächtnis und räumliches Schlussfolgern erfordern, erzielt NE-Dreamer erhebliche Verbesserungen. Diese Ergebnisse etablieren die Next-Embedding-Vorhersage mit temporalen Transforms als effektives, skalierbares Framework für MBRL in komplexen, teilweise beobachtbaren Umgebungen.

English

Capturing temporal dependencies is critical for model-based reinforcement learning (MBRL) in partially observable, high-dimensional domains. We introduce NE-Dreamer, a decoder-free MBRL agent that leverages a temporal transformer to predict next-step encoder embeddings from latent state sequences, directly optimizing temporal predictive alignment in representation space. This approach enables NE-Dreamer to learn coherent, predictive state representations without reconstruction losses or auxiliary supervision. On the DeepMind Control Suite, NE-Dreamer matches or exceeds the performance of DreamerV3 and leading decoder-free agents. On a challenging subset of DMLab tasks involving memory and spatial reasoning, NE-Dreamer achieves substantial gains. These results establish next-embedding prediction with temporal transformers as an effective, scalable framework for MBRL in complex, partially observable environments.

Nächste Einbettungsvorhersage macht Weltmodelle stärker

Next Embedding Prediction Makes World Models Stronger

Zusammenfassung

Support