DynamicVLA: Um Modelo Visão-Linguagem-Ação para Manipulação de Objetos Dinâmicos

Resumo

A manipulação de objetos dinâmicos continua a ser um desafio em aberto para os modelos Visão-Linguagem-Ação (VLA), que, apesar de uma forte generalização na manipulação estática, têm dificuldades em cenários dinâmicos que exigem perceção rápida, antecipação temporal e controlo contínuo. Apresentamos o DynamicVLA, uma estrutura para manipulação de objetos dinâmicos que integra o raciocínio temporal e a adaptação em ciclo fechado através de três conceitos-chave: 1) um VLA compacto de 0,4 mil milhões de parâmetros que utiliza um codificador de visão convolucional para uma codificação espacialmente eficiente e estruturalmente fiel, permitindo uma inferência multimodal rápida; 2) a Inferência Contínua, que permite a sobreposição de raciocínio e execução para uma menor latência e uma adaptação atempada ao movimento do objeto; e 3) o *Streaming* de Ações com Consciência do *Latent*, que colmata a lacuna entre perceção e execução, impondo uma execução de ações temporalmente alinhada. Para preencher a lacuna de dados fundamentais sobre manipulação dinâmica, introduzimos o benchmark de Manipulação de Objetos Dinâmicos (DOM), construído de raiz com um *pipeline* de recolha automática de dados que recolhe eficientemente 200 mil episódios sintéticos em 2,8 mil cenas e 206 objetos, e permite a recolha rápida de 2 mil episódios do mundo real sem teleoperação. Avaliações extensivas demonstram melhorias notáveis na velocidade de resposta, perceção e generalização, posicionando o DynamicVLA como uma estrutura unificada para a manipulação geral de objetos dinâmicos em diferentes implementações.

English

Manipulating dynamic objects remains an open challenge for Vision-Language-Action (VLA) models, which, despite strong generalization in static manipulation, struggle in dynamic scenarios requiring rapid perception, temporal anticipation, and continuous control. We present DynamicVLA, a framework for dynamic object manipulation that integrates temporal reasoning and closed-loop adaptation through three key designs: 1) a compact 0.4B VLA using a convolutional vision encoder for spatially efficient, structurally faithful encoding, enabling fast multimodal inference; 2) Continuous Inference, enabling overlapping reasoning and execution for lower latency and timely adaptation to object motion; and 3) Latent-aware Action Streaming, which bridges the perception-execution gap by enforcing temporally aligned action execution. To fill the missing foundation of dynamic manipulation data, we introduce the Dynamic Object Manipulation (DOM) benchmark, built from scratch with an auto data collection pipeline that efficiently gathers 200K synthetic episodes across 2.8K scenes and 206 objects, and enables fast collection of 2K real-world episodes without teleoperation. Extensive evaluations demonstrate remarkable improvements in response speed, perception, and generalization, positioning DynamicVLA as a unified framework for general dynamic object manipulation across embodiments.

DynamicVLA: Um Modelo Visão-Linguagem-Ação para Manipulação de Objetos Dinâmicos

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

Resumo

Support