VTAM: Modelos de Vídeo-Tato-Ação para Interação Física Complexa Além dos VLAs

Resumo

Os Modelos de Ação por Vídeo (VAMs) surgiram como uma estrutura promissora para a inteligência incorporada, aprendendo dinâmicas implícitas do mundo a partir de fluxos de vídeo brutos para produzir previsões de ações temporalmente consistentes. Embora esses modelos demonstrem um forte desempenho em tarefas de longo horizonte por meio do raciocínio visual, eles permanecem limitados em cenários ricos em contato, onde os estados críticos de interação são apenas parcialmente observáveis apenas pela visão. Em particular, a modulação de força de alta granularidade e as transições de contato não são codificadas de forma confiável em tokens visuais, levando a comportamentos instáveis ou imprecisos. Para preencher essa lacuna, apresentamos o Modelo de Ação Tátil-Visual (VTAM), uma estrutura de modelagem mundial multimodal que incorpora a percepção tátil como um sinal de aterramento complementar. O VTAM aumenta um transformador de vídeo pré-treinado com fluxos táteis por meio de um ajuste fino de transferência de modalidade leve, permitindo um aprendizado de representação multimodal eficiente sem dados pareados tátil-linguagem ou pré-treinamento tátil independente. Para estabilizar a fusão multimodal, introduzimos uma perda de regularização tátil que impõe uma atenção multimodal equilibrada, prevenindo o domínio latente visual no modelo de ação. O VTAM demonstra desempenho superior na manipulação rica em contato, mantendo uma taxa de sucesso robusta de 90% em média. Em cenários desafiadores, como a coleta e colocação de batatas chips que requerem consciência de força de alta fidelidade, o VTAM supera a linha de base de 0,5π em 80%. Nossas descobertas demonstram que a integração do feedback tátil é essencial para corrigir erros de estimativa visual em modelos de ação mundial, fornecendo uma abordagem escalável para modelos de fundação incorporados fisicamente fundamentados.

English

Video-Action Models (VAMs) have emerged as a promising framework for embodied intelligence, learning implicit world dynamics from raw video streams to produce temporally consistent action predictions. Although such models demonstrate strong performance on long-horizon tasks through visual reasoning, they remain limited in contact-rich scenarios where critical interaction states are only partially observable from vision alone. In particular, fine-grained force modulation and contact transitions are not reliably encoded in visual tokens, leading to unstable or imprecise behaviors. To bridge this gap, we introduce the Video-Tactile Action Model (VTAM), a multimodal world modeling framework that incorporates tactile perception as a complementary grounding signal. VTAM augments a pretrained video transformer with tactile streams via a lightweight modality transfer finetuning, enabling efficient cross-modal representation learning without tactile-language paired data or independent tactile pretraining. To stabilize multimodal fusion, we introduce a tactile regularization loss that enforces balanced cross-modal attention, preventing visual latent dominance in the action model. VTAM demonstrates superior performance in contact-rich manipulation, maintaining a robust success rate of 90 percent on average. In challenging scenarios such as potato chip pick-and-place requiring high-fidelity force awareness, VTAM outperforms the pi 0.5 baseline by 80 percent. Our findings demonstrate that integrating tactile feedback is essential for correcting visual estimation errors in world action models, providing a scalable approach to physically grounded embodied foundation models.

VTAM: Modelos de Vídeo-Tato-Ação para Interação Física Complexa Além dos VLAs

VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

Resumo

Support