VTAM: Modelli Video-Tatto-Azione per Interazioni Fisiche Complesse Oltre i VLA

Abstract

I modelli video-azione (Video-Action Models, VAM) sono emersi come un quadro promettente per l'intelligenza incarnata, apprendendo le dinamiche implicite del mondo da flussi video grezzi per produrre previsioni d'azione temporalmente coerenti. Sebbene tali modelli dimostrino prestazioni elevate in compiti a lungo orizzonte attraverso il ragionamento visivo, rimangono limitati in scenari ad alto contatto in cui gli stati critici di interazione sono solo parzialmente osservabili dalla sola visione. In particolare, la modulazione fine della forza e le transizioni di contatto non sono codificate in modo affidabile nei token visivi, portando a comportamenti instabili o imprecisi. Per colmare questa lacuna, introduciamo il Modello Video-Tattile-Azione (Video-Tactile Action Model, VTAM), un quadro di modellazione del mondo multimodale che incorpora la percezione tattile come segnale di ancoraggio complementare. VTAM potenzia un video transformer preaddestrato con flussi tattili attraverso un fine-tuning di trasferimento di modalità leggero, consentendo un apprendimento efficiente di rappresentazioni cross-modali senza dati accoppiati tattile-linguaggio o preaddestramento tattile indipendente. Per stabilizzare la fusione multimodale, introduciamo una loss di regolarizzazione tattile che impone un'attenzione cross-modale bilanciata, prevenendo la dominanza latente visiva nel modello d'azione. VTAM dimostra prestazioni superiori nella manipolazione ad alto contatto, mantenendo un tasso di successo robusto del 90 percento in media. In scenari impegnativi come la presa e posizionamento di patatine che richiedono un'elevata consapevolezza della forza, VTAM supera la baseline di π 0.5 dell'80 percento. I nostri risultati dimostrano che l'integrazione del feedback tattile è essenziale per correggere gli errori di stima visiva nei modelli d'azione del mondo, fornendo un approccio scalabile a modelli fondazionali incarnati fisicamente ancorati.

English

Video-Action Models (VAMs) have emerged as a promising framework for embodied intelligence, learning implicit world dynamics from raw video streams to produce temporally consistent action predictions. Although such models demonstrate strong performance on long-horizon tasks through visual reasoning, they remain limited in contact-rich scenarios where critical interaction states are only partially observable from vision alone. In particular, fine-grained force modulation and contact transitions are not reliably encoded in visual tokens, leading to unstable or imprecise behaviors. To bridge this gap, we introduce the Video-Tactile Action Model (VTAM), a multimodal world modeling framework that incorporates tactile perception as a complementary grounding signal. VTAM augments a pretrained video transformer with tactile streams via a lightweight modality transfer finetuning, enabling efficient cross-modal representation learning without tactile-language paired data or independent tactile pretraining. To stabilize multimodal fusion, we introduce a tactile regularization loss that enforces balanced cross-modal attention, preventing visual latent dominance in the action model. VTAM demonstrates superior performance in contact-rich manipulation, maintaining a robust success rate of 90 percent on average. In challenging scenarios such as potato chip pick-and-place requiring high-fidelity force awareness, VTAM outperforms the pi 0.5 baseline by 80 percent. Our findings demonstrate that integrating tactile feedback is essential for correcting visual estimation errors in world action models, providing a scalable approach to physically grounded embodied foundation models.

VTAM: Modelli Video-Tatto-Azione per Interazioni Fisiche Complesse Oltre i VLA

VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

Abstract

Support