Hacia la Manipulación Robótica Generalizable en Entornos Dinámicos

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) sobresalen en la manipulación estática, pero presentan dificultades en entornos dinámicos con objetivos en movimiento. Esta brecha de rendimiento se debe principalmente a la escasez de conjuntos de datos de manipulación dinámica y a la dependencia de los VLA convencionales en observaciones de fotograma único, lo que restringe sus capacidades de razonamiento espacio-temporal. Para abordar este problema, presentamos DOMINO, un conjunto de datos y benchmark a gran escala para la manipulación dinámica generalizable, que incluye 35 tareas con complejidades jerárquicas, más de 110.000 trayectorias expertas y una suite de evaluación multidimensional. Mediante experimentos exhaustivos, evaluamos sistemáticamente los VLA existentes en tareas dinámicas, exploramos estrategias de entrenamiento efectivas para la conciencia dinámica y validamos la generalización de los datos dinámicos. Además, proponemos PUMA, una arquitectura VLA consciente de la dinámica. Al integrar flujo óptico histórico centrado en la escena y consultas mundiales especializadas para predecir implícitamente estados futuros centrados en objetos, PUMA acopla la percepción consciente del historial con la predicción de corto alcance. Los resultados demuestran que PUMA alcanza un rendimiento de vanguardia, logrando una mejora absoluta del 6.3% en la tasa de éxito respecto a los baselines. Además, mostramos que el entrenamiento con datos dinámicos fomenta representaciones espacio-temporales robustas que se transfieren a tareas estáticas. Todo el código y los datos están disponibles en https://github.com/H-EmbodVis/DOMINO.

English

Vision-Language-Action (VLA) models excel in static manipulation but struggle in dynamic environments with moving targets. This performance gap primarily stems from a scarcity of dynamic manipulation datasets and the reliance of mainstream VLAs on single-frame observations, restricting their spatiotemporal reasoning capabilities. To address this, we introduce DOMINO, a large-scale dataset and benchmark for generalizable dynamic manipulation, featuring 35 tasks with hierarchical complexities, over 110K expert trajectories, and a multi-dimensional evaluation suite. Through comprehensive experiments, we systematically evaluate existing VLAs on dynamic tasks, explore effective training strategies for dynamic awareness, and validate the generalizability of dynamic data. Furthermore, we propose PUMA, a dynamics-aware VLA architecture. By integrating scene-centric historical optical flow and specialized world queries to implicitly forecast object-centric future states, PUMA couples history-aware perception with short-horizon prediction. Results demonstrate that PUMA achieves state-of-the-art performance, yielding a 6.3% absolute improvement in success rate over baselines. Moreover, we show that training on dynamic data fosters robust spatiotemporal representations that transfer to static tasks. All code and data are available at https://github.com/H-EmbodVis/DOMINO.

Hacia la Manipulación Robótica Generalizable en Entornos Dinámicos

Towards Generalizable Robotic Manipulation in Dynamic Environments

Resumen

Support