Un Dataset di Tatto, Visione e Linguaggio per l'Allineamento Multimodale
A Touch, Vision, and Language Dataset for Multimodal Alignment
February 20, 2024
Autori: Letian Fu, Gaurav Datta, Huang Huang, William Chung-Ho Panitch, Jaimyn Drake, Joseph Ortiz, Mustafa Mukadam, Mike Lambeta, Roberto Calandra, Ken Goldberg
cs.AI
Abstract
Il tatto è una modalità sensoriale importante per gli esseri umani, ma non è ancora stato integrato in un modello generativo di linguaggio multimodale. Ciò è in parte dovuto alla difficoltà di ottenere etichette in linguaggio naturale per i dati tattili e alla complessità di allineare le letture tattili con le osservazioni visive e le descrizioni linguistiche. Come passo verso il colmare questa lacuna, questo lavoro introduce un nuovo dataset di 44K coppie visione-tatto acquisite in contesti reali, con etichette in lingua inglese annotate da esseri umani (10%) e pseudo-etichette testuali generate da GPT-4V (90%). Utilizziamo questo dataset per addestrare un codificatore tattile allineato con la visione e il linguaggio per la classificazione a vocabolario aperto e un modello touch-vision-language (TVL) per la generazione di testo utilizzando il codificatore addestrato. I risultati suggeriscono che, incorporando il tatto, il modello TVL migliora (+29% di accuratezza nella classificazione) l'allineamento touch-vision-language rispetto ai modelli esistenti addestrati su qualsiasi coppia di queste modalità. Sebbene solo una piccola frazione del dataset sia etichettata da esseri umani, il modello TVL dimostra una migliore comprensione visivo-tattile rispetto a GPT-4V (+12%) e ai modelli open-source visione-linguaggio (+32%) su un nuovo benchmark di comprensione touch-vision. Codice e dati: https://tactile-vlm.github.io.
English
Touch is an important sensing modality for humans, but it has not yet been
incorporated into a multimodal generative language model. This is partially due
to the difficulty of obtaining natural language labels for tactile data and the
complexity of aligning tactile readings with both visual observations and
language descriptions. As a step towards bridging that gap, this work
introduces a new dataset of 44K in-the-wild vision-touch pairs, with English
language labels annotated by humans (10%) and textual pseudo-labels from GPT-4V
(90%). We use this dataset to train a vision-language-aligned tactile encoder
for open-vocabulary classification and a touch-vision-language (TVL) model for
text generation using the trained encoder. Results suggest that by
incorporating touch, the TVL model improves (+29% classification accuracy)
touch-vision-language alignment over existing models trained on any pair of
those modalities. Although only a small fraction of the dataset is
human-labeled, the TVL model demonstrates improved visual-tactile understanding
over GPT-4V (+12%) and open-source vision-language models (+32%) on a new
touch-vision understanding benchmark. Code and data:
https://tactile-vlm.github.io.