Rumo à Manipulação Robótica Generalizável em Ambientes Dinâmicos

Resumo

Os modelos Visão-Linguagem-Ação (VLA) destacam-se na manipulação estática, mas enfrentam dificuldades em ambientes dinâmicos com alvos em movimento. Esta lacuna de desempenho decorre principalmente da escassez de conjuntos de dados para manipulação dinâmica e da dependência dos VLAs convencionais em observações de frame único, o que limita suas capacidades de raciocínio espaço-temporal. Para solucionar esse problema, apresentamos o DOMINO, um conjunto de dados em larga escala e um benchmark para manipulação dinâmica generalizável, contendo 35 tarefas com complexidades hierárquicas, mais de 110 mil trajetórias especializadas e um conjunto de avaliação multidimensional. Por meio de experimentos abrangentes, avaliamos sistematicamente VLAs existentes em tarefas dinâmicas, exploramos estratégias eficazes de treinamento para percepção dinâmica e validamos a generalização de dados dinâmicos. Adicionalmente, propomos o PUMA, uma arquitetura VLA com consciência dinâmica. Ao integrar fluxo óptico histórico centrado na cena e consultas especializadas do mundo para prever implicitamente estados futuros centrados em objetos, o PUMA acopla percepção com histórico temporal a previsões de curto prazo. Os resultados demonstram que o PUMA alcança desempenho state-of-the-art, obtendo uma melhoria absoluta de 6,3% na taxa de sucesso sobre as baselines. Ademais, mostramos que o treinamento com dados dinâmicos promove representações espaço-temporais robustas que transferem para tarefas estáticas. Todo o código e dados estão disponíveis em https://github.com/H-EmbodVis/DOMINO.

English

Vision-Language-Action (VLA) models excel in static manipulation but struggle in dynamic environments with moving targets. This performance gap primarily stems from a scarcity of dynamic manipulation datasets and the reliance of mainstream VLAs on single-frame observations, restricting their spatiotemporal reasoning capabilities. To address this, we introduce DOMINO, a large-scale dataset and benchmark for generalizable dynamic manipulation, featuring 35 tasks with hierarchical complexities, over 110K expert trajectories, and a multi-dimensional evaluation suite. Through comprehensive experiments, we systematically evaluate existing VLAs on dynamic tasks, explore effective training strategies for dynamic awareness, and validate the generalizability of dynamic data. Furthermore, we propose PUMA, a dynamics-aware VLA architecture. By integrating scene-centric historical optical flow and specialized world queries to implicitly forecast object-centric future states, PUMA couples history-aware perception with short-horizon prediction. Results demonstrate that PUMA achieves state-of-the-art performance, yielding a 6.3% absolute improvement in success rate over baselines. Moreover, we show that training on dynamic data fosters robust spatiotemporal representations that transfer to static tasks. All code and data are available at https://github.com/H-EmbodVis/DOMINO.

Rumo à Manipulação Robótica Generalizável em Ambientes Dinâmicos

Towards Generalizable Robotic Manipulation in Dynamic Environments

Resumo

Support