Vers une manipulation robotique généralisable dans des environnements dynamiques

Résumé

Les modèles Vision-Langage-Action (VLA) excellent dans la manipulation statique mais peinent dans les environnements dynamiques avec des cibles mobiles. Cet écart de performance provient principalement de la rareté des jeux de données pour la manipulation dynamique et de la dépendance des VLA grand public aux observations monocadre, ce qui limite leurs capacités de raisonnement spatiotemporel. Pour y remédier, nous présentons DOMINO, un jeu de données et un benchmark à grande échelle pour la manipulation dynamique généralisable, comprenant 35 tâches avec des complexités hiérarchiques, plus de 110 000 trajectoires expertes et une suite d'évaluation multidimensionnelle. Par des expériences exhaustives, nous évaluons systématiquement les VLA existants sur des tâches dynamiques, explorons des stratégies d'entraînement efficaces pour la perception dynamique et validons la généralisabilité des données dynamiques. De plus, nous proposons PUMA, une architecture VLA consciente de la dynamique. En intégrant un flux optique historique centré sur la scène et des requêtes mondiales spécialisées pour prévoir implicitement les états futurs centrés sur les objets, PUMA couple une perception historique avec une prédiction à court terme. Les résultats démontrent que PUMA atteint des performances de pointe, obtenant une amélioration absolue de 6,3 % du taux de succès par rapport aux lignes de base. De plus, nous montrons que l'entraînement sur des données dynamiques favorise des représentations spatiotemporelles robustes qui se transfèrent aux tâches statiques. Tous les codes et données sont disponibles à l'adresse https://github.com/H-EmbodVis/DOMINO.

English

Vision-Language-Action (VLA) models excel in static manipulation but struggle in dynamic environments with moving targets. This performance gap primarily stems from a scarcity of dynamic manipulation datasets and the reliance of mainstream VLAs on single-frame observations, restricting their spatiotemporal reasoning capabilities. To address this, we introduce DOMINO, a large-scale dataset and benchmark for generalizable dynamic manipulation, featuring 35 tasks with hierarchical complexities, over 110K expert trajectories, and a multi-dimensional evaluation suite. Through comprehensive experiments, we systematically evaluate existing VLAs on dynamic tasks, explore effective training strategies for dynamic awareness, and validate the generalizability of dynamic data. Furthermore, we propose PUMA, a dynamics-aware VLA architecture. By integrating scene-centric historical optical flow and specialized world queries to implicitly forecast object-centric future states, PUMA couples history-aware perception with short-horizon prediction. Results demonstrate that PUMA achieves state-of-the-art performance, yielding a 6.3% absolute improvement in success rate over baselines. Moreover, we show that training on dynamic data fosters robust spatiotemporal representations that transfer to static tasks. All code and data are available at https://github.com/H-EmbodVis/DOMINO.

Vers une manipulation robotique généralisable dans des environnements dynamiques

Towards Generalizable Robotic Manipulation in Dynamic Environments

Résumé

Support