Предсказание следующих эмбеддингов делает мировые модели сильнее

Аннотация

Учет временных зависимостей критически важен для модельного обучения с подкреплением (МОП) в частично наблюдаемых областях с высокой размерностью. Мы представляем NE-Dreamer — декодер-фри агент МОП, который использует временной трансформер для предсказания эмбеддингов энкодера следующего шага из последовательностей латентных состояний, напрямую оптимизируя временное прогностическое выравнивание в пространстве представлений. Этот подход позволяет NE-Dreamer изучать согласованные прогностические представления состояний без потерь реконструкции или вспомогательного супервизирования. На DeepMind Control Suite NE-Dreamer демонстрирует производительность на уровне или выше DreamerV3 и ведущих декодер-фри агентов. На сложном подмножестве задач DMLab, требующих памяти и пространственного мышления, NE-Dreamer показывает существенное преимущество. Эти результаты утверждают предсказание следующих эмбеддингов с помощью временных трансформеров как эффективную и масштабируемую основу для МОП в сложных частично наблюдаемых средах.

English

Capturing temporal dependencies is critical for model-based reinforcement learning (MBRL) in partially observable, high-dimensional domains. We introduce NE-Dreamer, a decoder-free MBRL agent that leverages a temporal transformer to predict next-step encoder embeddings from latent state sequences, directly optimizing temporal predictive alignment in representation space. This approach enables NE-Dreamer to learn coherent, predictive state representations without reconstruction losses or auxiliary supervision. On the DeepMind Control Suite, NE-Dreamer matches or exceeds the performance of DreamerV3 and leading decoder-free agents. On a challenging subset of DMLab tasks involving memory and spatial reasoning, NE-Dreamer achieves substantial gains. These results establish next-embedding prediction with temporal transformers as an effective, scalable framework for MBRL in complex, partially observable environments.

Предсказание следующих эмбеддингов делает мировые модели сильнее

Next Embedding Prediction Makes World Models Stronger

Аннотация

Support