La prédiction d'embeddings suivants renforce les modèles du monde
Next Embedding Prediction Makes World Models Stronger
March 3, 2026
Auteurs: George Bredis, Nikita Balagansky, Daniil Gavrilov, Ruslan Rakhimov
cs.AI
Résumé
La capture des dépendances temporelles est cruciale pour l'apprentissage par renforcement basé sur un modèle (MBRL) dans des domaines partiellement observables et de haute dimension. Nous présentons NE-Dreamer, un agent MBRL sans décodeur qui exploite un transformeur temporel pour prédire les plongements de l'encodeur à l'étape suivante à partir de séquences d'états latents, optimisant directement l'alignement prédictif temporel dans l'espace de représentation. Cette approche permet à NE-Dreamer d'apprendre des représentations d'état cohérentes et prédictives sans pertes de reconstruction ni supervision auxiliaire. Sur le DeepMind Control Suite, NE-Dreamer égale ou dépasse les performances de DreamerV3 et des principaux agents sans décodeur. Sur un sous-ensemble complexe de tâches DMLab impliquant la mémoire et le raisonnement spatial, NE-Dreamer obtient des gains substantiels. Ces résultats établissent la prédiction du plongement suivant avec des transformeurs temporels comme un cadre efficace et évolutif pour le MBRL dans des environnements complexes et partiellement observables.
English
Capturing temporal dependencies is critical for model-based reinforcement learning (MBRL) in partially observable, high-dimensional domains. We introduce NE-Dreamer, a decoder-free MBRL agent that leverages a temporal transformer to predict next-step encoder embeddings from latent state sequences, directly optimizing temporal predictive alignment in representation space. This approach enables NE-Dreamer to learn coherent, predictive state representations without reconstruction losses or auxiliary supervision. On the DeepMind Control Suite, NE-Dreamer matches or exceeds the performance of DreamerV3 and leading decoder-free agents. On a challenging subset of DMLab tasks involving memory and spatial reasoning, NE-Dreamer achieves substantial gains. These results establish next-embedding prediction with temporal transformers as an effective, scalable framework for MBRL in complex, partially observable environments.