A Previsão do Próximo Embedding Torna os Modelos de Mundo Mais Fortes
Next Embedding Prediction Makes World Models Stronger
March 3, 2026
Autores: George Bredis, Nikita Balagansky, Daniil Gavrilov, Ruslan Rakhimov
cs.AI
Resumo
A captura de dependências temporais é crítica para o aprendizado por reforço baseado em modelo (MBRL) em domínios parcialmente observáveis e de alta dimensionalidade. Apresentamos o NE-Dreamer, um agente MBRL livre de *decoder* que utiliza um *transformer* temporal para prever as incorporações (*embeddings*) do codificador da próxima etapa a partir de sequências de estados latentes, otimizando diretamente o alinhamento preditivo temporal no espaço de representação. Essa abordagem permite que o NE-Dreamer aprenda representações de estado coerentes e preditivas sem perdas de reconstrução ou supervisão auxiliar. Na *DeepMind Control Suite*, o NE-Dreamer iguala ou supera o desempenho do DreamerV3 e dos principais agentes livres de *decoder*. Em um subconjunto desafiador de tarefas do DMLab que envolvem memória e raciocínio espacial, o NE-Dreamer obtém ganhos substanciais. Esses resultados estabelecem a previsão de *embeddings* futuros com *transformers* temporais como uma estrutura eficaz e escalável para MBRL em ambientes complexos e parcialmente observáveis.
English
Capturing temporal dependencies is critical for model-based reinforcement learning (MBRL) in partially observable, high-dimensional domains. We introduce NE-Dreamer, a decoder-free MBRL agent that leverages a temporal transformer to predict next-step encoder embeddings from latent state sequences, directly optimizing temporal predictive alignment in representation space. This approach enables NE-Dreamer to learn coherent, predictive state representations without reconstruction losses or auxiliary supervision. On the DeepMind Control Suite, NE-Dreamer matches or exceeds the performance of DreamerV3 and leading decoder-free agents. On a challenging subset of DMLab tasks involving memory and spatial reasoning, NE-Dreamer achieves substantial gains. These results establish next-embedding prediction with temporal transformers as an effective, scalable framework for MBRL in complex, partially observable environments.