Volgende Inbeddingsvoorspelling Maakt Wereldmodellen Sterker
Next Embedding Prediction Makes World Models Stronger
March 3, 2026
Auteurs: George Bredis, Nikita Balagansky, Daniil Gavrilov, Ruslan Rakhimov
cs.AI
Samenvatting
Het vastleggen van temporele afhankelijkheden is cruciaal voor modelgebaseerde reinforcement learning (MBRL) in gedeeltelijk observeerbare, hoogdimensionale domeinen. Wij introduceren NE-Dreamer, een decoder-vrije MBRL-agent die een temporele transformer gebruikt om volgende-stap encoder-embeddingen te voorspellen uit latente toestandssequenties, waarbij temporele predictieve alignering in de representatieruimte direct wordt geoptimaliseerd. Deze aanpak stelt NE-Dreamer in staat om samenhangende, voorspellende toestandsrepresentaties aan te leren zonder reconstructieverliezen of additionele supervisie. Op de DeepMind Control Suite evenaart of overtreft NE-Dreamer de prestaties van DreamerV3 en toonaangevende decoder-vrije agents. Op een uitdagende subset van DMLab-taken die geheugen en ruimtelijk redeneren vereisen, behaalt NE-Dreamer aanzienlijke verbeteringen. Deze resultaten vestigen volgende-embedding-voorspelling met temporele transformers als een effectief, schaalbaar raamwerk voor MBRL in complexe, gedeeltelijk observeerbare omgevingen.
English
Capturing temporal dependencies is critical for model-based reinforcement learning (MBRL) in partially observable, high-dimensional domains. We introduce NE-Dreamer, a decoder-free MBRL agent that leverages a temporal transformer to predict next-step encoder embeddings from latent state sequences, directly optimizing temporal predictive alignment in representation space. This approach enables NE-Dreamer to learn coherent, predictive state representations without reconstruction losses or auxiliary supervision. On the DeepMind Control Suite, NE-Dreamer matches or exceeds the performance of DreamerV3 and leading decoder-free agents. On a challenging subset of DMLab tasks involving memory and spatial reasoning, NE-Dreamer achieves substantial gains. These results establish next-embedding prediction with temporal transformers as an effective, scalable framework for MBRL in complex, partially observable environments.