DynamicVLA: Ein Vision-Language-Action-Modell für die Manipulation dynamischer Objekte
DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation
January 29, 2026
papers.authors: Haozhe Xie, Beichen Wen, Jiarui Zheng, Zhaoxi Chen, Fangzhou Hong, Haiwen Diao, Ziwei Liu
cs.AI
papers.abstract
Die Manipulation dynamischer Objekte stellt nach wie vor eine ungelöste Herausforderung für Vision-Language-Action (VLA)-Modelle dar. Trotz starker Generalisierungsfähigkeiten bei statischer Manipulation zeigen diese Modelle Schwächen in dynamischen Szenarien, die schnelle Wahrnehmung, zeitliche Antizipation und kontinuierliche Regelung erfordern. Wir präsentieren DynamicVLA, einen Rahmen für die Manipulation dynamischer Objekte, der zeitliches Reasoning und closed-loop-Adaption durch drei Schlüsseldesigns integriert: 1) ein kompaktes 0.4B-VLA-Modell mit einem Faltungs-Vision-Encoder für räumlich effiziente, strukturtreue Kodierung, das schnelle multimodale Inferenz ermöglicht; 2) Kontinuierliche Inferenz, die überlappendes Reasoning und Ausführung für geringere Latenz und rechtzeitige Anpassung an Objektbewegungen erlaubt; und 3) Latent-aware Action Streaming, das die Lücke zwischen Wahrnehmung und Ausführung durch zeitlich synchronisierte Aktionsausführung überbrückt. Um die fehlende Datengrundlage für dynamische Manipulation zu schaffen, führen wir den Dynamic Object Manipulation (DOM)-Benchmark ein, der von Grund auf mit einer automatisierten Datenerfassungspipeline aufgebaut wurde. Diese erfasst effizient 200.000 synthetische Episoden über 2.800 Szenen und 206 Objekte hinweg und ermöglicht die schnelle Erfassung von 2.000 realen Episoden ohne Teleoperation. Umfassende Evaluationen demonstrieren bemerkenswerte Verbesserungen in Reaktionsgeschwindigkeit, Wahrnehmung und Generalisierung, was DynamicVLA als einheitlichen Rahmen für allgemeine dynamische Objektmanipulation über verschiedene Embodiments hinweg positioniert.
English
Manipulating dynamic objects remains an open challenge for Vision-Language-Action (VLA) models, which, despite strong generalization in static manipulation, struggle in dynamic scenarios requiring rapid perception, temporal anticipation, and continuous control. We present DynamicVLA, a framework for dynamic object manipulation that integrates temporal reasoning and closed-loop adaptation through three key designs: 1) a compact 0.4B VLA using a convolutional vision encoder for spatially efficient, structurally faithful encoding, enabling fast multimodal inference; 2) Continuous Inference, enabling overlapping reasoning and execution for lower latency and timely adaptation to object motion; and 3) Latent-aware Action Streaming, which bridges the perception-execution gap by enforcing temporally aligned action execution. To fill the missing foundation of dynamic manipulation data, we introduce the Dynamic Object Manipulation (DOM) benchmark, built from scratch with an auto data collection pipeline that efficiently gathers 200K synthetic episodes across 2.8K scenes and 206 objects, and enables fast collection of 2K real-world episodes without teleoperation. Extensive evaluations demonstrate remarkable improvements in response speed, perception, and generalization, positioning DynamicVLA as a unified framework for general dynamic object manipulation across embodiments.