ChatPaper.aiChatPaper

Двухпотоковая диффузия для модели «Визуальный язык-действие» с расширением за счет мировой модели

Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

October 31, 2025
Авторы: John Won, Kyungmin Lee, Huiwon Jang, Dongyoung Kim, Jinwoo Shin
cs.AI

Аннотация

В последнее время расширение моделей "Видение-Язык-Действие" (VLA) за счет мирового моделирования показало перспективность в улучшении обучения роботизированных политик. Однако совместное предсказание наблюдений следующего состояния и последовательностей действий остается сложной задачей из-за присущего различия между двумя модальностями. Для решения этой проблемы мы предлагаем DUal-STream diffusion (DUST) — фреймворк VLA, дополненный мировым моделированием, который устраняет конфликт модальностей и повышает производительность VLA в разнообразных задачах. В частности, мы предлагаем мультимодальную архитектуру диффузионного трансформера, которая явно поддерживает раздельные потоки модальностей, сохраняя при этом возможность кросс-модального обмена знаниями. Кроме того, мы вводим независимые шумовые возмущения для каждой модальности и развязанную функцию потерь на основе flow matching. Такая конструкция позволяет модели изучать совместное распределение двунаправленным образом, избегая необходимости в унифицированном латентном пространстве. Основываясь на разделении модальностей во время обучения, мы также представляем метод совместной сэмплинга, поддерживающий масштабирование во время тестирования, при котором токены действий и визуальные токены эволюционируют асинхронно с разной скоростью. В экспериментах на симуляционных бенчмарках, таких как RoboCasa и GR-1, DUST демонстрирует до 6% улучшения по сравнению с базовыми методами, а наш подход к масштабированию во время тестирования дает дополнительный прирост в 2-5%. На реальных задачах с Franka Research 3 DUST повышает процент успешных выполнений на 13%, подтверждая свою эффективность за пределами симуляции. Более того, предварительное обучение на видео без действий из BridgeV2 дает значительный перенос улучшений на RoboCasa, подчеркивая потенциал DUST для масштабного предварительного обучения VLA.
English
Recently, augmenting Vision-Language-Action models (VLAs) with world modeling has shown promise in improving robotic policy learning. However, it remains challenging to jointly predict next-state observations and action sequences because of the inherent difference between the two modalities. To address this, we propose DUal-STream diffusion (DUST), a world-model augmented VLA framework that handles the modality conflict and enhances the performance of VLAs across diverse tasks. Specifically, we propose a multimodal diffusion transformer architecture that explicitly maintains separate modality streams while still enabling cross-modal knowledge sharing. In addition, we introduce independent noise perturbations for each modality and a decoupled flow-matching loss. This design enables the model to learn the joint distribution in a bidirectional manner while avoiding the need for a unified latent space. Based on the decoupling of modalities during training, we also introduce a joint sampling method that supports test-time scaling, where action and vision tokens evolve asynchronously at different rates. Through experiments on simulated benchmarks such as RoboCasa and GR-1, DUST achieves up to 6% gains over baseline methods, while our test-time scaling approach provides an additional 2-5% boost. On real-world tasks with the Franka Research 3, DUST improves success rates by 13%, confirming its effectiveness beyond simulation. Furthermore, pre-training on action-free videos from BridgeV2 yields significant transfer gains on RoboCasa, underscoring DUST's potential for large-scale VLA pretraining.
PDF81December 2, 2025