ChatPaper.aiChatPaper

DynamicVLA: Un Modelo Visión-Lenguaje-Acción para la Manipulación de Objetos Dinámicos

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

January 29, 2026
Autores: Haozhe Xie, Beichen Wen, Jiarui Zheng, Zhaoxi Chen, Fangzhou Hong, Haiwen Diao, Ziwei Liu
cs.AI

Resumen

La manipulación de objetos dinámicos sigue siendo un desafío abierto para los modelos Visión-Lenguaje-Acción (VLA), los cuales, a pesar de su fuerte generalización en manipulación estática, presentan dificultades en escenarios dinámicos que requieren percepción rápida, anticipación temporal y control continuo. Presentamos DynamicVLA, un marco para la manipulación de objetos dinámicos que integra razonamiento temporal y adaptación en lazo cerrado mediante tres diseños clave: 1) un VLA compacto de 0.4B que utiliza un codificador visual convolucional para una codificación espacialmente eficiente y estructuralmente fiel, permitiendo una inferencia multimodal rápida; 2) Inferencia Continua, que permite el solapamiento de razonamiento y ejecución para una menor latencia y una adaptación oportuna al movimiento del objeto; y 3) Transmisión de Acciones con Conciencia del Espacio Latente, que salva la brecha percepción-ejecución al imponer una ejecución de acciones temporalmente alineada. Para suplir la falta de datos fundamentales sobre manipulación dinámica, introducimos el benchmark de Manipulación de Objetos Dinámicos (DOM), construido desde cero con un pipeline de recolección automática de datos que recopila eficientemente 200K episodios sintéticos en 2.8K escenas y 206 objetos, y permite la recolección rápida de 2K episodios del mundo real sin teleoperación. Evaluaciones exhaustivas demuestran mejoras notables en velocidad de respuesta, percepción y generalización, posicionando a DynamicVLA como un marco unificado para la manipulación general de objetos dinámicos a través de diferentes implementaciones.
English
Manipulating dynamic objects remains an open challenge for Vision-Language-Action (VLA) models, which, despite strong generalization in static manipulation, struggle in dynamic scenarios requiring rapid perception, temporal anticipation, and continuous control. We present DynamicVLA, a framework for dynamic object manipulation that integrates temporal reasoning and closed-loop adaptation through three key designs: 1) a compact 0.4B VLA using a convolutional vision encoder for spatially efficient, structurally faithful encoding, enabling fast multimodal inference; 2) Continuous Inference, enabling overlapping reasoning and execution for lower latency and timely adaptation to object motion; and 3) Latent-aware Action Streaming, which bridges the perception-execution gap by enforcing temporally aligned action execution. To fill the missing foundation of dynamic manipulation data, we introduce the Dynamic Object Manipulation (DOM) benchmark, built from scratch with an auto data collection pipeline that efficiently gathers 200K synthetic episodes across 2.8K scenes and 206 objects, and enables fast collection of 2K real-world episodes without teleoperation. Extensive evaluations demonstrate remarkable improvements in response speed, perception, and generalization, positioning DynamicVLA as a unified framework for general dynamic object manipulation across embodiments.
PDF503January 31, 2026