La Predicción de Incrustaciones Siguientes Fortalece los Modelos del Mundo
Next Embedding Prediction Makes World Models Stronger
March 3, 2026
Autores: George Bredis, Nikita Balagansky, Daniil Gavrilov, Ruslan Rakhimov
cs.AI
Resumen
La captura de dependencias temporales es crucial para el aprendizaje por refuerzo basado en modelos (MBRL) en dominios parcialmente observables y de alta dimensionalidad. Presentamos NE-Dreamer, un agente MBRL sin decodificador que utiliza un transformador temporal para predecir las incrustaciones del codificador del siguiente paso a partir de secuencias de estados latentes, optimizando directamente la alineación predictiva temporal en el espacio de representación. Este enfoque permite a NE-Dreamer aprender representaciones de estado coherentes y predictivas sin pérdidas de reconstrucción ni supervisión auxiliar. En DeepMind Control Suite, NE-Dreamer iguala o supera el rendimiento de DreamerV3 y de los principales agentes sin decodificador. En un subconjunto desafiante de tareas de DMLab que involucran memoria y razonamiento espacial, NE-Dreamer logra mejoras sustanciales. Estos resultados establecen la predicción de incrustaciones siguientes con transformadores temporales como un marco efectivo y escalable para MBRL en entornos complejos y parcialmente observables.
English
Capturing temporal dependencies is critical for model-based reinforcement learning (MBRL) in partially observable, high-dimensional domains. We introduce NE-Dreamer, a decoder-free MBRL agent that leverages a temporal transformer to predict next-step encoder embeddings from latent state sequences, directly optimizing temporal predictive alignment in representation space. This approach enables NE-Dreamer to learn coherent, predictive state representations without reconstruction losses or auxiliary supervision. On the DeepMind Control Suite, NE-Dreamer matches or exceeds the performance of DreamerV3 and leading decoder-free agents. On a challenging subset of DMLab tasks involving memory and spatial reasoning, NE-Dreamer achieves substantial gains. These results establish next-embedding prediction with temporal transformers as an effective, scalable framework for MBRL in complex, partially observable environments.