La Predicción de Incrustaciones Siguientes Fortalece los Modelos del Mundo

Resumen

La captura de dependencias temporales es crucial para el aprendizaje por refuerzo basado en modelos (MBRL) en dominios parcialmente observables y de alta dimensionalidad. Presentamos NE-Dreamer, un agente MBRL sin decodificador que utiliza un transformador temporal para predecir las incrustaciones del codificador del siguiente paso a partir de secuencias de estados latentes, optimizando directamente la alineación predictiva temporal en el espacio de representación. Este enfoque permite a NE-Dreamer aprender representaciones de estado coherentes y predictivas sin pérdidas de reconstrucción ni supervisión auxiliar. En DeepMind Control Suite, NE-Dreamer iguala o supera el rendimiento de DreamerV3 y de los principales agentes sin decodificador. En un subconjunto desafiante de tareas de DMLab que involucran memoria y razonamiento espacial, NE-Dreamer logra mejoras sustanciales. Estos resultados establecen la predicción de incrustaciones siguientes con transformadores temporales como un marco efectivo y escalable para MBRL en entornos complejos y parcialmente observables.

English

Capturing temporal dependencies is critical for model-based reinforcement learning (MBRL) in partially observable, high-dimensional domains. We introduce NE-Dreamer, a decoder-free MBRL agent that leverages a temporal transformer to predict next-step encoder embeddings from latent state sequences, directly optimizing temporal predictive alignment in representation space. This approach enables NE-Dreamer to learn coherent, predictive state representations without reconstruction losses or auxiliary supervision. On the DeepMind Control Suite, NE-Dreamer matches or exceeds the performance of DreamerV3 and leading decoder-free agents. On a challenging subset of DMLab tasks involving memory and spatial reasoning, NE-Dreamer achieves substantial gains. These results establish next-embedding prediction with temporal transformers as an effective, scalable framework for MBRL in complex, partially observable environments.

La Predicción de Incrustaciones Siguientes Fortalece los Modelos del Mundo

Next Embedding Prediction Makes World Models Stronger

Resumen

Support