Naar generaliseerbare robotmanipulatie in dynamische omgevingen

Samenvatting

Vision-Language-Action (VLA)-modellen blinken uit in statische manipulatie, maar hebben moeite in dynamische omgevingen met bewegende doelen. Deze prestatiekloof komt voornamelijk voort uit een schaarste aan dynamische manipulatie-datasets en de afhankelijkheid van mainstream VLA's van observaties met één frame, wat hun ruimtelijk-temporele redeneervermogen beperkt. Om dit aan te pakken, introduceren we DOMINO, een grootschalige dataset en benchmark voor generaliseerbare dynamische manipulatie. Deze omvat 35 taken met hiërarchische complexiteit, meer dan 110.000 expert trajecten en een multidimensionale evaluatiesuite. Via uitgebreide experimenten evalueren we systematisch bestaande VLA's op dynamische taken, onderzoeken we effectieve trainingsstrategieën voor dynamisch bewustzijn en valideren we de generaliseerbaarheid van dynamische data. Verder stellen we PUMA voor, een dynamisch-bewuste VLA-architectuur. Door de integratie van scenegestroomde historische optische stroom en gespecialiseerde wereld-queries om objectgecentreerde toekomstige toestanden impliciet te voorspellen, koppelt PUMA geschiedenisbewuste waarneming aan kortetermijnvoorspelling. Resultaten tonen aan dat PUMA state-of-the-art prestaties bereikt, wat een absolute verbetering van 6,3% in succespercentage oplevert ten opzichte van de baseline. Bovendien tonen we aan dat training op dynamische data robuuste ruimtelijk-temporele representaties bevordert die overdraagbaar zijn naar statische taken. Alle code en data zijn beschikbaar op https://github.com/H-EmbodVis/DOMINO.

English

Vision-Language-Action (VLA) models excel in static manipulation but struggle in dynamic environments with moving targets. This performance gap primarily stems from a scarcity of dynamic manipulation datasets and the reliance of mainstream VLAs on single-frame observations, restricting their spatiotemporal reasoning capabilities. To address this, we introduce DOMINO, a large-scale dataset and benchmark for generalizable dynamic manipulation, featuring 35 tasks with hierarchical complexities, over 110K expert trajectories, and a multi-dimensional evaluation suite. Through comprehensive experiments, we systematically evaluate existing VLAs on dynamic tasks, explore effective training strategies for dynamic awareness, and validate the generalizability of dynamic data. Furthermore, we propose PUMA, a dynamics-aware VLA architecture. By integrating scene-centric historical optical flow and specialized world queries to implicitly forecast object-centric future states, PUMA couples history-aware perception with short-horizon prediction. Results demonstrate that PUMA achieves state-of-the-art performance, yielding a 6.3% absolute improvement in success rate over baselines. Moreover, we show that training on dynamic data fosters robust spatiotemporal representations that transfer to static tasks. All code and data are available at https://github.com/H-EmbodVis/DOMINO.

Naar generaliseerbare robotmanipulatie in dynamische omgevingen

Towards Generalizable Robotic Manipulation in Dynamic Environments

Samenvatting

Support