DynamicVLA: 동적 객체 조작을 위한 비전-언어-행동 모델
DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation
January 29, 2026
저자: Haozhe Xie, Beichen Wen, Jiarui Zheng, Zhaoxi Chen, Fangzhou Hong, Haiwen Diao, Ziwei Liu
cs.AI
초록
동적 객체 조작은 Vision-Language-Action(VLA) 모델에게 여전히 해결 과제로 남아 있습니다. 정적 조작에서는 강력한 일반화 성능을 보이는 반면, 빠른 인지, 시간적 예측, 지속적 제어가 필요한 동적 시나리오에서는 어려움을 겪기 때문입니다. 본 연구에서는 시간적 추론과 폐루프 적응을 통합한 동적 객체 조작 프레임워크인 DynamicVLA를 제시합니다. 이는 세 가지 핵심 설계로 구성됩니다: 1) 공간 효율적이고 구조적 정확도가 높은 인코딩을 위한 합성곱 비전 인코더를 사용한 간소화된 0.4B 규모 VLA로, 빠른 다중 모드 추론을 가능하게 함, 2) 지연 시간을 낮추고 객체 운동에 대한 적시 적응을 위해 추론과 실행을 중첩시키는 연속 추론(Continuous Inference), 3) 인지-실행 간격을 해소하고 시간적으로 정렬된 액션 실행을 보장하는 잠재 인식 액션 스트리밍(Latent-aware Action Streaming)입니다. 또한 동적 조작 데이터 기반의 부재를 해결하기 위해 자동 데이터 수집 파이프라인으로 처음부터 구축한 Dynamic Object Manipulation(DOM) 벤치마크를 소개합니다. 이 파이프라인은 2.8K 개의 장면과 206 개의 객체에 걸쳐 200K 개의 합성 에피소드를 효율적으로 수집하며, 원격 조작 없이 2K 개의 실제 에피소드를 빠르게 수집할 수 있게 합니다. 폭넓은 평가를 통해 응답 속도, 인지, 일반화 측면에서 현저한 향상을 입증하며, DynamicVLA를 다양한 구현체를 아우르는 통합 동적 객체 조작 프레임워크로 자리매김합니다.
English
Manipulating dynamic objects remains an open challenge for Vision-Language-Action (VLA) models, which, despite strong generalization in static manipulation, struggle in dynamic scenarios requiring rapid perception, temporal anticipation, and continuous control. We present DynamicVLA, a framework for dynamic object manipulation that integrates temporal reasoning and closed-loop adaptation through three key designs: 1) a compact 0.4B VLA using a convolutional vision encoder for spatially efficient, structurally faithful encoding, enabling fast multimodal inference; 2) Continuous Inference, enabling overlapping reasoning and execution for lower latency and timely adaptation to object motion; and 3) Latent-aware Action Streaming, which bridges the perception-execution gap by enforcing temporally aligned action execution. To fill the missing foundation of dynamic manipulation data, we introduce the Dynamic Object Manipulation (DOM) benchmark, built from scratch with an auto data collection pipeline that efficiently gathers 200K synthetic episodes across 2.8K scenes and 206 objects, and enables fast collection of 2K real-world episodes without teleoperation. Extensive evaluations demonstrate remarkable improvements in response speed, perception, and generalization, positioning DynamicVLA as a unified framework for general dynamic object manipulation across embodiments.