Verso una Manipolazione Robotica Generalizzabile in Ambienti Dinamici

Abstract

I modelli Vision-Language-Action (VLA) eccellono nella manipolazione statica ma incontrano difficoltà in ambienti dinamici con target in movimento. Questo divario prestazionale deriva principalmente dalla scarsità di dataset per la manipolazione dinamica e dalla dipendenza dei VLA mainstream da osservazioni monocromatiche, che limita le loro capacità di ragionamento spaziotemporale. Per affrontare questo problema, presentiamo DOMINO, un dataset su larga scala e un benchmark per la manipolazione dinamica generalizzabile, che include 35 task con complessità gerarchiche, oltre 110.000 traiettorie esperte e una suite di valutazione multidimensionale. Attraverso esperimenti completi, valutiamo sistematicamente i VLA esistenti su compiti dinamici, esploriamo strategie di addestramento efficaci per la consapevolezza dinamica e convalidiamo la generalizzabilità dei dati dinamici. Inoltre, proponiamo PUMA, un'architettura VLA consapevole della dinamica. Integrando il flusso ottico storico centrato sulla scena e query mondiali specializzate per prevedere implicitamente stati futuri centrati sugli oggetti, PUMA accoppia una percezione consapevole della storia con una previsione a breve orizzonte. I risultati dimostrano che PUMA raggiunge prestazioni allo stato dell'arte, ottenendo un miglioramento assoluto del 6.3% nel tasso di successo rispetto ai baseline. Inoltre, mostriamo che l'addestramento su dati dinamici favorisce rappresentazioni spaziotemporali robuste che si trasferiscono a compiti statici. Tutti i codici e i dati sono disponibili su https://github.com/H-EmbodVis/DOMINO.

English

Vision-Language-Action (VLA) models excel in static manipulation but struggle in dynamic environments with moving targets. This performance gap primarily stems from a scarcity of dynamic manipulation datasets and the reliance of mainstream VLAs on single-frame observations, restricting their spatiotemporal reasoning capabilities. To address this, we introduce DOMINO, a large-scale dataset and benchmark for generalizable dynamic manipulation, featuring 35 tasks with hierarchical complexities, over 110K expert trajectories, and a multi-dimensional evaluation suite. Through comprehensive experiments, we systematically evaluate existing VLAs on dynamic tasks, explore effective training strategies for dynamic awareness, and validate the generalizability of dynamic data. Furthermore, we propose PUMA, a dynamics-aware VLA architecture. By integrating scene-centric historical optical flow and specialized world queries to implicitly forecast object-centric future states, PUMA couples history-aware perception with short-horizon prediction. Results demonstrate that PUMA achieves state-of-the-art performance, yielding a 6.3% absolute improvement in success rate over baselines. Moreover, we show that training on dynamic data fosters robust spatiotemporal representations that transfer to static tasks. All code and data are available at https://github.com/H-EmbodVis/DOMINO.

Verso una Manipolazione Robotica Generalizzabile in Ambienti Dinamici

Towards Generalizable Robotic Manipulation in Dynamic Environments

Abstract

Support