La Predizione dell'Embedding Successivo Rafforza i Modelli del Mondo
Next Embedding Prediction Makes World Models Stronger
March 3, 2026
Autori: George Bredis, Nikita Balagansky, Daniil Gavrilov, Ruslan Rakhimov
cs.AI
Abstract
La cattura delle dipendenze temporali è fondamentale per l'apprendimento per rinforzo basato su modelli (MBRL) in domini parzialmente osservabili e ad alta dimensionalità. Introduciamo NE-Dreamer, un agente MBRL privo di decoder che utilizza un transformer temporale per prevedere le incorporazioni (embeddings) dell'encoder al passo successivo a partire da sequenze di stati latenti, ottimizzando direttamente l'allineamento predittivo temporale nello spazio delle rappresentazioni. Questo approccio consente a NE-Dreamer di apprendere rappresentazioni di stato coerenti e predittive senza perdite di ricostruzione o supervisione ausiliaria. Sulla DeepMind Control Suite, NE-Dreamer eguaglia o supera le prestazioni di DreamerV3 e dei principali agenti privi di decoder. Su un sottoinsieme impegnativo di task DMLab che coinvolgono memoria e ragionamento spaziale, NE-Dreamer ottiene miglioramenti sostanziali. Questi risultati stabiliscono la predizione delle incorporazioni successive (next-embedding) con transformer temporali come un framework efficace e scalabile per il MBRL in ambienti complessi e parzialmente osservabili.
English
Capturing temporal dependencies is critical for model-based reinforcement learning (MBRL) in partially observable, high-dimensional domains. We introduce NE-Dreamer, a decoder-free MBRL agent that leverages a temporal transformer to predict next-step encoder embeddings from latent state sequences, directly optimizing temporal predictive alignment in representation space. This approach enables NE-Dreamer to learn coherent, predictive state representations without reconstruction losses or auxiliary supervision. On the DeepMind Control Suite, NE-Dreamer matches or exceeds the performance of DreamerV3 and leading decoder-free agents. On a challenging subset of DMLab tasks involving memory and spatial reasoning, NE-Dreamer achieves substantial gains. These results establish next-embedding prediction with temporal transformers as an effective, scalable framework for MBRL in complex, partially observable environments.