동적 환경에서 일반화 가능한 로봇 매니퓰레이션을 향하여
Towards Generalizable Robotic Manipulation in Dynamic Environments
March 16, 2026
저자: Heng Fang, Shangru Li, Shuhan Wang, Xuanyang Xi, Dingkang Liang, Xiang Bai
cs.AI
초록
비전-언어-행동(VLA) 모델은 정적 조작에서는 뛰어난 성능을 보이지만 이동 표적이 있는 동적 환경에서는 어려움을 겪습니다. 이러한 성능 격차는 주로 동적 조작 데이터셋의 부족과 기존 VLA 모델이 단일 프레임 관찰에 의존하여 시공간 추론 능력이 제한되기 때문입니다. 이를 해결하기 위해 우리는 계층적 복잡성을 가진 35개 작업, 11만 개 이상의 전문가 궤적, 다차원 평가 제품군으로 구성된 일반화 가능한 동적 조작을 위한 대규모 데이터셋 및 벤치마크인 DOMINO를 소개합니다. 포괄적인 실험을 통해 기존 VLA 모델을 동적 작업에 대해 체계적으로 평가하고, 동적 인식을 위한 효과적인 훈련 전략을 탐구하며, 동적 데이터의 일반화 가능성을 검증합니다. 더 나아가 우리는 동적 인식 VLA 아키텍처인 PUMA를 제안합니다. 장면 중심 역사적 광류와 객체 중심 미래 상태를 암묵적으로 예측하기 위한 전용 월드 쿼리를 통합함으로써 PUMA는 역사 인식 인식과 단기 예측을 결합합니다. 결과적으로 PUMA는 최첨단 성능을 달성하여 기준 모델 대비 성공률에서 6.3%의 절대적 향상을 보였습니다. 또한 동적 데이터로 훈련하면 정적 작업으로 전이 가능한 강력한 시공간 표현이 학습됨을 확인했습니다. 모든 코드와 데이터는 https://github.com/H-EmbodVis/DOMINO에서 이용할 수 있습니다.
English
Vision-Language-Action (VLA) models excel in static manipulation but struggle in dynamic environments with moving targets. This performance gap primarily stems from a scarcity of dynamic manipulation datasets and the reliance of mainstream VLAs on single-frame observations, restricting their spatiotemporal reasoning capabilities. To address this, we introduce DOMINO, a large-scale dataset and benchmark for generalizable dynamic manipulation, featuring 35 tasks with hierarchical complexities, over 110K expert trajectories, and a multi-dimensional evaluation suite. Through comprehensive experiments, we systematically evaluate existing VLAs on dynamic tasks, explore effective training strategies for dynamic awareness, and validate the generalizability of dynamic data. Furthermore, we propose PUMA, a dynamics-aware VLA architecture. By integrating scene-centric historical optical flow and specialized world queries to implicitly forecast object-centric future states, PUMA couples history-aware perception with short-horizon prediction. Results demonstrate that PUMA achieves state-of-the-art performance, yielding a 6.3% absolute improvement in success rate over baselines. Moreover, we show that training on dynamic data fosters robust spatiotemporal representations that transfer to static tasks. All code and data are available at https://github.com/H-EmbodVis/DOMINO.