VTAM: Video-Taktile-Aktionsmodelle für komplexe physikalische Interaktionen jenseits von VLAs

Zusammenfassung

Video-Action-Modelle (VAMs) haben sich als vielversprechendes Framework für verkörpertes Lernen erwiesen, indem sie implizite Weltdynamiken aus Rohvideodaten lernen, um zeitlich konsistente Aktionsvorhersagen zu generieren. Obwohl solche Modelle bei langfristigen Aufgaben durch visuelles Reasoning starke Leistungen zeigen, sind sie in kontaktintensiven Szenarien eingeschränkt, in denen kritische Interaktionszustände nur teilweise visuell erfassbar sind. Insbesondere fein abgestufte Kraftmodulation und Kontaktübergänge werden in visuellen Tokens nicht zuverlässig abgebildet, was zu instabilen oder unpräzisen Verhaltensweisen führt. Um diese Lücke zu schließen, stellen wir das Video-Taktile-Action-Model (VTAM) vor, ein multimodales Weltmodellierungs-Framework, das taktile Wahrnehmung als komplementäres Verankerungssignal integriert. VTAM erweitert einen vortrainierten Video-Transformer durch taktile Datenströme mittels leichtgewichtiger Modalitäts-Transfer-Feinabstimmung, was effizientes cross-modales Repräsentationslernen ohne taktil-sprachlich gepaarte Daten oder separate taktile Vortrainierung ermöglicht. Zur Stabilisierung der multimodalen Fusion führen wir einen taktilen Regularisierungsverlust ein, der einen ausgeglichenen cross-modalen Aufmerksamkeitsmechanismus erzwingt und die Dominanz visueller Latent-Variablen im Aktionsmodell verhindert. VTAM zeigt überlegene Leistung in kontaktintensiver Manipulation und hält eine robuste Erfolgsquote von durchschnittlich 90 Prozent. In anspruchsvollen Szenarien wie dem Aufnehmen und Platzieren von Kartoffelchips, die hochpräzises Kraftbewusstsein erfordern, übertrifft VTAM die π₀.₅-Baseline um 80 Prozent. Unsere Ergebnisse zeigen, dass die Integration taktiler Rückmeldung essenziell ist, um visuelle Schätzfehler in Weltaktionsmodellen zu korrigieren, und liefern einen skalierbaren Ansatz für physikalisch verankerte verkörperte Foundation-Modelle.

English

Video-Action Models (VAMs) have emerged as a promising framework for embodied intelligence, learning implicit world dynamics from raw video streams to produce temporally consistent action predictions. Although such models demonstrate strong performance on long-horizon tasks through visual reasoning, they remain limited in contact-rich scenarios where critical interaction states are only partially observable from vision alone. In particular, fine-grained force modulation and contact transitions are not reliably encoded in visual tokens, leading to unstable or imprecise behaviors. To bridge this gap, we introduce the Video-Tactile Action Model (VTAM), a multimodal world modeling framework that incorporates tactile perception as a complementary grounding signal. VTAM augments a pretrained video transformer with tactile streams via a lightweight modality transfer finetuning, enabling efficient cross-modal representation learning without tactile-language paired data or independent tactile pretraining. To stabilize multimodal fusion, we introduce a tactile regularization loss that enforces balanced cross-modal attention, preventing visual latent dominance in the action model. VTAM demonstrates superior performance in contact-rich manipulation, maintaining a robust success rate of 90 percent on average. In challenging scenarios such as potato chip pick-and-place requiring high-fidelity force awareness, VTAM outperforms the pi 0.5 baseline by 80 percent. Our findings demonstrate that integrating tactile feedback is essential for correcting visual estimation errors in world action models, providing a scalable approach to physically grounded embodied foundation models.

VTAM: Video-Taktile-Aktionsmodelle für komplexe physikalische Interaktionen jenseits von VLAs

VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

Zusammenfassung

Support