ChatPaper.aiChatPaper

Эффективные модели мира с контекстно-ориентированной токенизацией.

Efficient World Models with Context-Aware Tokenization

June 27, 2024
Авторы: Vincent Micheli, Eloi Alonso, François Fleuret
cs.AI

Аннотация

Масштабирование методов глубокого обучения с подкреплением (RL) представляет собой значительное вызов. Вслед за разработками в области генеративного моделирования, модельно-ориентированное обучение с подкреплением позиционирует себя как сильный конкурент. Недавние достижения в моделировании последовательностей привели к эффективным моделям мира на основе трансформеров, хотя за счет тяжелых вычислений из-за длинных последовательностей токенов, необходимых для точного моделирования окружающей среды. В данной работе мы предлагаем Delta-IRIS, нового агента с архитектурой модели мира, состоящей из дискретного автоэнкодера, который кодирует стохастические дельты между временными шагами, и авторегрессионного трансформера, который предсказывает будущие дельты, суммируя текущее состояние мира с непрерывными токенами. В бенчмарке Crafter, Delta-IRIS устанавливает новый state of the art при нескольких бюджетах кадров, при этом обучается на порядок быстрее предыдущих подходов, основанных на внимании. Мы публикуем наш код и модели по адресу https://github.com/vmicheli/delta-iris.
English
Scaling up deep Reinforcement Learning (RL) methods presents a significant challenge. Following developments in generative modelling, model-based RL positions itself as a strong contender. Recent advances in sequence modelling have led to effective transformer-based world models, albeit at the price of heavy computations due to the long sequences of tokens required to accurately simulate environments. In this work, we propose Delta-IRIS, a new agent with a world model architecture composed of a discrete autoencoder that encodes stochastic deltas between time steps and an autoregressive transformer that predicts future deltas by summarizing the current state of the world with continuous tokens. In the Crafter benchmark, Delta-IRIS sets a new state of the art at multiple frame budgets, while being an order of magnitude faster to train than previous attention-based approaches. We release our code and models at https://github.com/vmicheli/delta-iris.

Summary

AI-Generated Summary

PDF81November 29, 2024