Zu generalisierbarer Roboter-Manipulation in dynamischen Umgebungen
Towards Generalizable Robotic Manipulation in Dynamic Environments
March 16, 2026
Autoren: Heng Fang, Shangru Li, Shuhan Wang, Xuanyang Xi, Dingkang Liang, Xiang Bai
cs.AI
Zusammenfassung
Vision-Language-Action (VLA)-Modelle zeichnen sich bei statischen Manipulationsaufgaben aus, haben jedoch in dynamischen Umgebungen mit sich bewegenden Zielobjekten Schwierigkeiten. Diese Leistungslücke resultiert hauptsächlich aus einem Mangel an Datensätzen für dynamische Manipulation und der Abhängigkeit gängiger VLA-Modelle von Einzelbildbeobachtungen, was ihre Fähigkeiten zur raumzeitlichen Inferenz einschränkt. Um dieses Problem zu adressieren, stellen wir DOMINO vor – einen groß angelegten Datensatz und Benchmark für generalisierbare dynamische Manipulation. DOMINO umfasst 35 Aufgaben mit hierarchisch steigender Komplexität, über 110.000 Expertentrajektorien und eine mehrdimensionale Evaluationssuite. Mittels umfassender Experimente evaluieren wir systematisch bestehende VLA-Modelle für dynamische Aufgaben, erforschen effektive Trainingsstrategien für dynamisches Situationsbewusstsein und validieren die Generalisierbarkeit dynamischer Daten. Darüber hinaus schlagen wir PUMA vor, eine dynamikbewusste VLA-Architektur. Durch die Integration von szenenzentriertem historischem optischem Fluss und spezialisierten Welt-Queries, die objektzentrierte Zukunftszustände implizit vorhersagen, koppelt PUMA verlaufsbewusste Wahrnehmung mit kurzfristiger Prädiktion. Die Ergebnisse zeigen, dass PUMA State-of-the-Art-Leistung erreicht und eine absolute Steigerung der Erfolgsrate um 6,3 % gegenüber Baseline-Modellen erzielt. Zudem demonstrieren wir, dass das Training mit dynamischen Daten robuste raumzeitliche Repräsentationen fördert, die auf statische Aufgaben übertragbar sind. Der gesamte Code und die Daten sind unter https://github.com/H-EmbodVis/DOMINO verfügbar.
English
Vision-Language-Action (VLA) models excel in static manipulation but struggle in dynamic environments with moving targets. This performance gap primarily stems from a scarcity of dynamic manipulation datasets and the reliance of mainstream VLAs on single-frame observations, restricting their spatiotemporal reasoning capabilities. To address this, we introduce DOMINO, a large-scale dataset and benchmark for generalizable dynamic manipulation, featuring 35 tasks with hierarchical complexities, over 110K expert trajectories, and a multi-dimensional evaluation suite. Through comprehensive experiments, we systematically evaluate existing VLAs on dynamic tasks, explore effective training strategies for dynamic awareness, and validate the generalizability of dynamic data. Furthermore, we propose PUMA, a dynamics-aware VLA architecture. By integrating scene-centric historical optical flow and specialized world queries to implicitly forecast object-centric future states, PUMA couples history-aware perception with short-horizon prediction. Results demonstrate that PUMA achieves state-of-the-art performance, yielding a 6.3% absolute improvement in success rate over baselines. Moreover, we show that training on dynamic data fosters robust spatiotemporal representations that transfer to static tasks. All code and data are available at https://github.com/H-EmbodVis/DOMINO.