Быстрая LeWorldModel

Аннотация

Совместно-встраивающие предсказательные архитектуры (Joint-Embedding Predictive Architectures, JEPAs), включая недавнюю LeWorldModel (LeWM), стали перспективной основой для визуальных моделей мира без реконструкции. Однако для визуального планирования LeWM оценивает последовательности кандидатных действий путем многократного применения локальной одношаговой модели латентных переходов. Такое авторегрессионное развертывание делает планирование вычислительно затратным и подвергает предсказанную траекторию накоплению латентных ошибок по мере роста горизонта. Мы предлагаем Fast LeWorldModel (Fast-LeWM), быструю латентную модель мира, которая заменяет повторное локальное развертывание предсказанием по префиксу действий. Исходя из текущего латентного представления и последовательности кандидатных действий, Fast-LeWM кодирует их префиксы и параллельно предсказывает будущие латентные состояния, достигаемые после выполнения этих префиксов. Делая префиксы действий базовой единицей предсказания, Fast-LeWM напрямую моделирует эффекты действий, накопленные в разной степени на нескольких горизонтах. Такая супервизия на уровне префиксов заставляет модель изучать, как состояния непрерывно эволюционируют при различных префиксах действий, а не только подгонять одношаговые переходы состояний. Во время планирования предсказатель может использовать последний токен префикса из закодированной последовательности действий для оценки соответствующего будущего латентного состояния, не проходя явно через каждое промежуточное воображаемое состояние. В ряде задач Fast-LeWM повышает среднюю успешность по сравнению с LeWM при существенном сокращении времени планирования, достигая меньших латентных потерь в разомкнутом контуре, рост которых значительно замедляется с увеличением горизонта развертывания.

English

Joint-Embedding Predictive Architectures (JEPAs), including recent LeWorldModel (LeWM), have become a promising foundation for reconstruction-free visual world models. For visual planning, however, LeWM evaluates candidate action sequences by repeatedly applying a local one-step latent transition model. This autoregressive rollout makes planning computationally expensive and exposes the predicted trajectory to accumulated latent errors as the horizon grows. We propose Fast LeWorldModel (Fast-LeWM), a fast latent world model that replaces repeated local rollout with action-prefix prediction. Given the current latent and a candidate action sequence, Fast-LeWM encodes its prefixes and predicts the future latents reached after executing those prefixes in parallel. By making action prefixes the basic prediction unit, Fast-LeWM directly models action effects accumulated to different extents over multiple horizons. This prefix-level supervision forces the model to learn how states continuously evolve under different action prefixes, rather than only fitting one-step state transitions. During planning, the predictor can use the last prefix token from the encoded action sequence to evaluate the corresponding future latent without explicitly rolling through each intermediate imagined state. Across multiple tasks, Fast-LeWM improves average success over LeWM while substantially reducing planning time, achieving lower open-loop latent loss whose growth becomes significantly slower as the rollout horizon increases.