К достижению обобщаемой роботизированной манипуляции в динамических средах
Towards Generalizable Robotic Manipulation in Dynamic Environments
March 16, 2026
Авторы: Heng Fang, Shangru Li, Shuhan Wang, Xuanyang Xi, Dingkang Liang, Xiang Bai
cs.AI
Аннотация
Модели "Визуальный язык-действие" (VLA) демонстрируют превосходные результаты в статических манипуляциях, но испытывают трудности в динамических средах с движущимися целями. Этот разрыв в производительности в первую очередь обусловлен дефицитом наборов данных по динамическим манипуляциям и зависимостью основных VLA от однокадровых наблюдений, что ограничивает их пространственно-временные reasoning-способности. Для решения этой проблемы мы представляем DOMINO — крупномасштабный набор данных и бенчмарк для обобщаемых динамических манипуляций, включающий 35 задач с иерархической сложностью, более 110 тыс. экспертных траекторий и многомерный набор средств оценки. В ходе всесторонних экспериментов мы систематически оцениваем существующие VLA на динамических задачах, исследуем эффективные стратегии обучения для динамического восприятия и проверяем обобщаемость динамических данных. Кроме того, мы предлагаем PUMA — динамически-осознающую архитектуру VLA. Интегрируя центрированный на сцене исторический оптический поток и специализированные world-запросы для неявного прогнозирования объектно-ориентированных будущих состояний, PUMA сочетает восприятие с учетом истории с краткосрочным прогнозированием. Результаты показывают, что PUMA достигает наилучшей производительности, обеспечивая абсолютное улучшение показателя успешности на 6,3% по сравнению с базовыми методами. Более того, мы демонстрируем, что обучение на динамических данных способствует формированию robust пространственно-временных представлений, которые переносятся на статические задачи. Весь код и данные доступны по адресу https://github.com/H-EmbodVis/DOMINO.
English
Vision-Language-Action (VLA) models excel in static manipulation but struggle in dynamic environments with moving targets. This performance gap primarily stems from a scarcity of dynamic manipulation datasets and the reliance of mainstream VLAs on single-frame observations, restricting their spatiotemporal reasoning capabilities. To address this, we introduce DOMINO, a large-scale dataset and benchmark for generalizable dynamic manipulation, featuring 35 tasks with hierarchical complexities, over 110K expert trajectories, and a multi-dimensional evaluation suite. Through comprehensive experiments, we systematically evaluate existing VLAs on dynamic tasks, explore effective training strategies for dynamic awareness, and validate the generalizability of dynamic data. Furthermore, we propose PUMA, a dynamics-aware VLA architecture. By integrating scene-centric historical optical flow and specialized world queries to implicitly forecast object-centric future states, PUMA couples history-aware perception with short-horizon prediction. Results demonstrate that PUMA achieves state-of-the-art performance, yielding a 6.3% absolute improvement in success rate over baselines. Moreover, we show that training on dynamic data fosters robust spatiotemporal representations that transfer to static tasks. All code and data are available at https://github.com/H-EmbodVis/DOMINO.