VTAM: Modelos Video-Táctiles-Acción para la Interacción Física Compleja más allá de los VLA

Resumen

Los Modelos de Acción-Vídeo (VAMs) han surgido como un marco prometedor para la inteligencia corporeizada, aprendiendo dinámicas implícitas del mundo a partir de flujos de vídeo sin procesar para producir predicciones de acciones temporalmente consistentes. Aunque estos modelos demuestran un alto rendimiento en tareas de largo horizonte mediante razonamiento visual, siguen siendo limitados en escenarios ricos en contacto, donde los estados críticos de interacción son solo parcialmente observables únicamente a partir de la visión. En particular, la modulación de fuerzas de grano fino y las transiciones de contacto no se codifican de forma fiable en los tokens visuales, lo que conduce a comportamientos inestables o imprecisos. Para salvar esta brecha, presentamos el Modelo de Acción Vídeo-Táctil (VTAM), un marco de modelado del mundo multimodal que incorpora la percepción táctil como señal de anclaje complementaria. VTAM aumenta un transformador de vídeo preentrenado con flujos táctiles mediante un ajuste fino de transferencia de modalidad ligero, permitiendo un aprendizaje de representación cross-modal eficiente sin datos emparejados táctil-lenguaje ni preentrenamiento táctil independiente. Para estabilizar la fusión multimodal, introducimos una pérdida por regularización táctil que impone una atención cross-modal equilibrada, evitando el dominio latente visual en el modelo de acción. VTAM demuestra un rendimiento superior en la manipulación rica en contacto, manteniendo una tasa de éxito robusta del 90 por ciento de media. En escenarios desafiantes, como la recogida y colocación de patatas fritas que requiere una alta conciencia de la fuerza, VTAM supera a la línea base π 0.5 en un 80 por ciento. Nuestros hallazgos demuestran que la integración de la retroalimentación táctil es esencial para corregir errores de estimación visual en los modelos de acción del mundo, proporcionando un enfoque escalable para modelos fundacionales corporeizados con base física.

English

Video-Action Models (VAMs) have emerged as a promising framework for embodied intelligence, learning implicit world dynamics from raw video streams to produce temporally consistent action predictions. Although such models demonstrate strong performance on long-horizon tasks through visual reasoning, they remain limited in contact-rich scenarios where critical interaction states are only partially observable from vision alone. In particular, fine-grained force modulation and contact transitions are not reliably encoded in visual tokens, leading to unstable or imprecise behaviors. To bridge this gap, we introduce the Video-Tactile Action Model (VTAM), a multimodal world modeling framework that incorporates tactile perception as a complementary grounding signal. VTAM augments a pretrained video transformer with tactile streams via a lightweight modality transfer finetuning, enabling efficient cross-modal representation learning without tactile-language paired data or independent tactile pretraining. To stabilize multimodal fusion, we introduce a tactile regularization loss that enforces balanced cross-modal attention, preventing visual latent dominance in the action model. VTAM demonstrates superior performance in contact-rich manipulation, maintaining a robust success rate of 90 percent on average. In challenging scenarios such as potato chip pick-and-place requiring high-fidelity force awareness, VTAM outperforms the pi 0.5 baseline by 80 percent. Our findings demonstrate that integrating tactile feedback is essential for correcting visual estimation errors in world action models, providing a scalable approach to physically grounded embodied foundation models.

VTAM: Modelos Video-Táctiles-Acción para la Interacción Física Compleja más allá de los VLA

VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

Resumen

Support