Un ensemble de données tactile, visuel et linguistique pour l'alignement multimodal
A Touch, Vision, and Language Dataset for Multimodal Alignment
February 20, 2024
Auteurs: Letian Fu, Gaurav Datta, Huang Huang, William Chung-Ho Panitch, Jaimyn Drake, Joseph Ortiz, Mustafa Mukadam, Mike Lambeta, Roberto Calandra, Ken Goldberg
cs.AI
Résumé
Le toucher est une modalité sensorielle importante pour les humains, mais il n'a pas encore été intégré dans un modèle génératif de langage multimodal. Cela s'explique en partie par la difficulté d'obtenir des étiquettes en langage naturel pour les données tactiles et par la complexité d'aligner les mesures tactiles avec les observations visuelles et les descriptions linguistiques. Pour combler cette lacune, ce travail introduit un nouveau jeu de données de 44K paires vision-toucher capturées en conditions réelles, avec des étiquettes en anglais annotées par des humains (10%) et des pseudo-étiquettes textuelles générées par GPT-4V (90%). Nous utilisons ce jeu de données pour entraîner un encodeur tactile aligné vision-langage pour la classification à vocabulaire ouvert, ainsi qu'un modèle toucher-vision-langage (TVL) pour la génération de texte utilisant cet encodeur. Les résultats suggèrent qu'en intégrant le toucher, le modèle TVL améliore l'alignement toucher-vision-langage (+29% en précision de classification) par rapport aux modèles existants entraînés sur toute paire de ces modalités. Bien qu'une petite fraction du jeu de données soit annotée par des humains, le modèle TVL démontre une meilleure compréhension visuo-tactile que GPT-4V (+12%) et les modèles vision-langage open-source (+32%) sur un nouveau benchmark de compréhension toucher-vision. Code et données : https://tactile-vlm.github.io.
English
Touch is an important sensing modality for humans, but it has not yet been
incorporated into a multimodal generative language model. This is partially due
to the difficulty of obtaining natural language labels for tactile data and the
complexity of aligning tactile readings with both visual observations and
language descriptions. As a step towards bridging that gap, this work
introduces a new dataset of 44K in-the-wild vision-touch pairs, with English
language labels annotated by humans (10%) and textual pseudo-labels from GPT-4V
(90%). We use this dataset to train a vision-language-aligned tactile encoder
for open-vocabulary classification and a touch-vision-language (TVL) model for
text generation using the trained encoder. Results suggest that by
incorporating touch, the TVL model improves (+29% classification accuracy)
touch-vision-language alignment over existing models trained on any pair of
those modalities. Although only a small fraction of the dataset is
human-labeled, the TVL model demonstrates improved visual-tactile understanding
over GPT-4V (+12%) and open-source vision-language models (+32%) on a new
touch-vision understanding benchmark. Code and data:
https://tactile-vlm.github.io.Summary
AI-Generated Summary