Двухпотоковая диффузия для модели «Визуальный язык-действие» с расширением за счет мировой модели
Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model
October 31, 2025
Авторы: John Won, Kyungmin Lee, Huiwon Jang, Dongyoung Kim, Jinwoo Shin
cs.AI
Аннотация
В последнее время расширение моделей "Видение-Язык-Действие" (VLA) за счет мирового моделирования показало перспективность в улучшении обучения роботизированных политик. Однако совместное предсказание наблюдений следующего состояния и последовательностей действий остается сложной задачей из-за присущего различия между двумя модальностями. Для решения этой проблемы мы предлагаем DUal-STream diffusion (DUST) — фреймворк VLA, дополненный мировым моделированием, который устраняет конфликт модальностей и повышает производительность VLA в разнообразных задачах. В частности, мы предлагаем мультимодальную архитектуру диффузионного трансформера, которая явно поддерживает раздельные потоки модальностей, сохраняя при этом возможность кросс-модального обмена знаниями. Кроме того, мы вводим независимые шумовые возмущения для каждой модальности и развязанную функцию потерь на основе flow matching. Такая конструкция позволяет модели изучать совместное распределение двунаправленным образом, избегая необходимости в унифицированном латентном пространстве. Основываясь на разделении модальностей во время обучения, мы также представляем метод совместной сэмплинга, поддерживающий масштабирование во время тестирования, при котором токены действий и визуальные токены эволюционируют асинхронно с разной скоростью. В экспериментах на симуляционных бенчмарках, таких как RoboCasa и GR-1, DUST демонстрирует до 6% улучшения по сравнению с базовыми методами, а наш подход к масштабированию во время тестирования дает дополнительный прирост в 2-5%. На реальных задачах с Franka Research 3 DUST повышает процент успешных выполнений на 13%, подтверждая свою эффективность за пределами симуляции. Более того, предварительное обучение на видео без действий из BridgeV2 дает значительный перенос улучшений на RoboCasa, подчеркивая потенциал DUST для масштабного предварительного обучения VLA.
English
Recently, augmenting Vision-Language-Action models (VLAs) with world modeling
has shown promise in improving robotic policy learning. However, it remains
challenging to jointly predict next-state observations and action sequences
because of the inherent difference between the two modalities. To address this,
we propose DUal-STream diffusion (DUST), a world-model augmented VLA framework
that handles the modality conflict and enhances the performance of VLAs across
diverse tasks. Specifically, we propose a multimodal diffusion transformer
architecture that explicitly maintains separate modality streams while still
enabling cross-modal knowledge sharing. In addition, we introduce independent
noise perturbations for each modality and a decoupled flow-matching loss. This
design enables the model to learn the joint distribution in a bidirectional
manner while avoiding the need for a unified latent space. Based on the
decoupling of modalities during training, we also introduce a joint sampling
method that supports test-time scaling, where action and vision tokens evolve
asynchronously at different rates. Through experiments on simulated benchmarks
such as RoboCasa and GR-1, DUST achieves up to 6% gains over baseline methods,
while our test-time scaling approach provides an additional 2-5% boost. On
real-world tasks with the Franka Research 3, DUST improves success rates by
13%, confirming its effectiveness beyond simulation. Furthermore, pre-training
on action-free videos from BridgeV2 yields significant transfer gains on
RoboCasa, underscoring DUST's potential for large-scale VLA pretraining.