Volgende Inbeddingsvoorspelling Maakt Wereldmodellen Sterker

Samenvatting

Het vastleggen van temporele afhankelijkheden is cruciaal voor modelgebaseerde reinforcement learning (MBRL) in gedeeltelijk observeerbare, hoogdimensionale domeinen. Wij introduceren NE-Dreamer, een decoder-vrije MBRL-agent die een temporele transformer gebruikt om volgende-stap encoder-embeddingen te voorspellen uit latente toestandssequenties, waarbij temporele predictieve alignering in de representatieruimte direct wordt geoptimaliseerd. Deze aanpak stelt NE-Dreamer in staat om samenhangende, voorspellende toestandsrepresentaties aan te leren zonder reconstructieverliezen of additionele supervisie. Op de DeepMind Control Suite evenaart of overtreft NE-Dreamer de prestaties van DreamerV3 en toonaangevende decoder-vrije agents. Op een uitdagende subset van DMLab-taken die geheugen en ruimtelijk redeneren vereisen, behaalt NE-Dreamer aanzienlijke verbeteringen. Deze resultaten vestigen volgende-embedding-voorspelling met temporele transformers als een effectief, schaalbaar raamwerk voor MBRL in complexe, gedeeltelijk observeerbare omgevingen.

English

Capturing temporal dependencies is critical for model-based reinforcement learning (MBRL) in partially observable, high-dimensional domains. We introduce NE-Dreamer, a decoder-free MBRL agent that leverages a temporal transformer to predict next-step encoder embeddings from latent state sequences, directly optimizing temporal predictive alignment in representation space. This approach enables NE-Dreamer to learn coherent, predictive state representations without reconstruction losses or auxiliary supervision. On the DeepMind Control Suite, NE-Dreamer matches or exceeds the performance of DreamerV3 and leading decoder-free agents. On a challenging subset of DMLab tasks involving memory and spatial reasoning, NE-Dreamer achieves substantial gains. These results establish next-embedding prediction with temporal transformers as an effective, scalable framework for MBRL in complex, partially observable environments.

Volgende Inbeddingsvoorspelling Maakt Wereldmodellen Sterker

Next Embedding Prediction Makes World Models Stronger

Samenvatting

Support