ChatPaper.aiChatPaper

Предсказание следующих эмбеддингов делает мировые модели сильнее

Next Embedding Prediction Makes World Models Stronger

March 3, 2026
Авторы: George Bredis, Nikita Balagansky, Daniil Gavrilov, Ruslan Rakhimov
cs.AI

Аннотация

Учет временных зависимостей критически важен для модельного обучения с подкреплением (МОП) в частично наблюдаемых областях с высокой размерностью. Мы представляем NE-Dreamer — декодер-фри агент МОП, который использует временной трансформер для предсказания эмбеддингов энкодера следующего шага из последовательностей латентных состояний, напрямую оптимизируя временное прогностическое выравнивание в пространстве представлений. Этот подход позволяет NE-Dreamer изучать согласованные прогностические представления состояний без потерь реконструкции или вспомогательного супервизирования. На DeepMind Control Suite NE-Dreamer демонстрирует производительность на уровне или выше DreamerV3 и ведущих декодер-фри агентов. На сложном подмножестве задач DMLab, требующих памяти и пространственного мышления, NE-Dreamer показывает существенное преимущество. Эти результаты утверждают предсказание следующих эмбеддингов с помощью временных трансформеров как эффективную и масштабируемую основу для МОП в сложных частично наблюдаемых средах.
English
Capturing temporal dependencies is critical for model-based reinforcement learning (MBRL) in partially observable, high-dimensional domains. We introduce NE-Dreamer, a decoder-free MBRL agent that leverages a temporal transformer to predict next-step encoder embeddings from latent state sequences, directly optimizing temporal predictive alignment in representation space. This approach enables NE-Dreamer to learn coherent, predictive state representations without reconstruction losses or auxiliary supervision. On the DeepMind Control Suite, NE-Dreamer matches or exceeds the performance of DreamerV3 and leading decoder-free agents. On a challenging subset of DMLab tasks involving memory and spatial reasoning, NE-Dreamer achieves substantial gains. These results establish next-embedding prediction with temporal transformers as an effective, scalable framework for MBRL in complex, partially observable environments.
PDF202May 8, 2026