ChatPaper.aiChatPaper

DynamicVLA : un modèle vision-langage-action pour la manipulation d'objets dynamiques

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

January 29, 2026
papers.authors: Haozhe Xie, Beichen Wen, Jiarui Zheng, Zhaoxi Chen, Fangzhou Hong, Haiwen Diao, Ziwei Liu
cs.AI

papers.abstract

La manipulation d'objets dynamiques reste un défi ouvert pour les modèles Vision-Langage-Action (VLA). Bien qu'ils présentent une forte généralisation dans les manipulations statiques, ils peinent dans les scénarios dynamiques qui nécessitent une perception rapide, une anticipation temporelle et un contrôle continu. Nous présentons DynamicVLA, un cadre pour la manipulation d'objets dynamiques qui intègre le raisonnement temporel et l'adaptation en boucle fermée grâce à trois conceptions clés : 1) un VLA compact de 0,4 milliard de paramètres utilisant un encodeur visuel convolutionnel pour un codage spatialement efficace et structurellement fidèle, permettant une inférence multimodale rapide ; 2) l'Inférence Continue, permettant un chevauchement du raisonnement et de l'exécution pour une latence réduite et une adaptation rapide au mouvement des objets ; et 3) le Flux d'Actions Conscient du Latent, qui comble le décalage perception-exécution en imposant une exécution temporellement alignée des actions. Pour combler le manque de données fondamentales sur la manipulation dynamique, nous introduisons le benchmark Dynamic Object Manipulation (DOM), construit ex nihilo avec un pipeline de collecte automatique de données qui recueille efficacement 200 000 épisodes synthétiques couvrant 2 800 scènes et 206 objets, et permet la collecte rapide de 2 000 épisodes en monde réel sans téléopération. Des évaluations approfondies démontrent des améliorations remarquables en termes de vitesse de réponse, de perception et de généralisation, positionnant DynamicVLA comme un cadre unifié pour la manipulation générale d'objets dynamiques, indépendamment des incarnations robotiques.
English
Manipulating dynamic objects remains an open challenge for Vision-Language-Action (VLA) models, which, despite strong generalization in static manipulation, struggle in dynamic scenarios requiring rapid perception, temporal anticipation, and continuous control. We present DynamicVLA, a framework for dynamic object manipulation that integrates temporal reasoning and closed-loop adaptation through three key designs: 1) a compact 0.4B VLA using a convolutional vision encoder for spatially efficient, structurally faithful encoding, enabling fast multimodal inference; 2) Continuous Inference, enabling overlapping reasoning and execution for lower latency and timely adaptation to object motion; and 3) Latent-aware Action Streaming, which bridges the perception-execution gap by enforcing temporally aligned action execution. To fill the missing foundation of dynamic manipulation data, we introduce the Dynamic Object Manipulation (DOM) benchmark, built from scratch with an auto data collection pipeline that efficiently gathers 200K synthetic episodes across 2.8K scenes and 206 objects, and enables fast collection of 2K real-world episodes without teleoperation. Extensive evaluations demonstrate remarkable improvements in response speed, perception, and generalization, positioning DynamicVLA as a unified framework for general dynamic object manipulation across embodiments.
PDF503January 31, 2026