VTAM : Modèles vidéo-tactile-action pour les interactions physiques complexes au-delà des VLA

Résumé

Les modèles vidéo-action (VAM) sont apparus comme un cadre prometteur pour l'intelligence incarnée, apprenant les dynamiques implicites du monde à partir de flux vidéo bruts pour produire des prédictions d'actions temporellement cohérentes. Bien que ces modèles démontrent de fortes performances sur des tâches à long horizon grâce au raisonnement visuel, ils restent limités dans les scénarios riches en contacts où les états d'interaction critiques ne sont que partiellement observables par la vision seule. En particulier, la modulation de force fine et les transitions de contact ne sont pas encodées de manière fiable dans les tokens visuels, conduisant à des comportements instables ou imprécis. Pour combler cette lacune, nous présentons le Modèle d'Action Vidéo-Tactile (VTAM), un cadre de modélisation du monde multimodal qui intègre la perception tactile comme signal d'ancrage complémentaire. VTAM augmente un transformeur vidéo pré-entraîné avec des flux tactiles via un réglage fin de transfert modalité léger, permettant un apprentissage de représentation cross-modal efficace sans données appariées tactile-langage ni pré-entraînement tactile indépendant. Pour stabiliser la fusion multimodale, nous introduisons une perte de régularisation tactile qui impose une attention cross-modal équilibrée, empêchant la dominance latente visuelle dans le modèle d'action. VTAM démontre des performances supérieures en manipulation riche en contacts, maintenant un taux de réussite robuste de 90 pour cent en moyenne. Dans des scénarios difficiles tels que la prise et pose de chips nécessitant une conscience de force à haute fidélité, VTAM surpasse la baseline de π 0.5 de 80 pour cent. Nos résultats démontrent que l'intégration de retours tactiles est essentielle pour corriger les erreurs d'estimation visuelle dans les modèles d'action du monde, fournissant une approche évolutive pour les modèles de fondation incarnés physiquement ancrés.

English

Video-Action Models (VAMs) have emerged as a promising framework for embodied intelligence, learning implicit world dynamics from raw video streams to produce temporally consistent action predictions. Although such models demonstrate strong performance on long-horizon tasks through visual reasoning, they remain limited in contact-rich scenarios where critical interaction states are only partially observable from vision alone. In particular, fine-grained force modulation and contact transitions are not reliably encoded in visual tokens, leading to unstable or imprecise behaviors. To bridge this gap, we introduce the Video-Tactile Action Model (VTAM), a multimodal world modeling framework that incorporates tactile perception as a complementary grounding signal. VTAM augments a pretrained video transformer with tactile streams via a lightweight modality transfer finetuning, enabling efficient cross-modal representation learning without tactile-language paired data or independent tactile pretraining. To stabilize multimodal fusion, we introduce a tactile regularization loss that enforces balanced cross-modal attention, preventing visual latent dominance in the action model. VTAM demonstrates superior performance in contact-rich manipulation, maintaining a robust success rate of 90 percent on average. In challenging scenarios such as potato chip pick-and-place requiring high-fidelity force awareness, VTAM outperforms the pi 0.5 baseline by 80 percent. Our findings demonstrate that integrating tactile feedback is essential for correcting visual estimation errors in world action models, providing a scalable approach to physically grounded embodied foundation models.

VTAM : Modèles vidéo-tactile-action pour les interactions physiques complexes au-delà des VLA

VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

Résumé

Support