Un Dataset di Tatto, Visione e Linguaggio per l'Allineamento Multimodale

Abstract

Il tatto è una modalità sensoriale importante per gli esseri umani, ma non è ancora stato integrato in un modello generativo di linguaggio multimodale. Ciò è in parte dovuto alla difficoltà di ottenere etichette in linguaggio naturale per i dati tattili e alla complessità di allineare le letture tattili con le osservazioni visive e le descrizioni linguistiche. Come passo verso il colmare questa lacuna, questo lavoro introduce un nuovo dataset di 44K coppie visione-tatto acquisite in contesti reali, con etichette in lingua inglese annotate da esseri umani (10%) e pseudo-etichette testuali generate da GPT-4V (90%). Utilizziamo questo dataset per addestrare un codificatore tattile allineato con la visione e il linguaggio per la classificazione a vocabolario aperto e un modello touch-vision-language (TVL) per la generazione di testo utilizzando il codificatore addestrato. I risultati suggeriscono che, incorporando il tatto, il modello TVL migliora (+29% di accuratezza nella classificazione) l'allineamento touch-vision-language rispetto ai modelli esistenti addestrati su qualsiasi coppia di queste modalità. Sebbene solo una piccola frazione del dataset sia etichettata da esseri umani, il modello TVL dimostra una migliore comprensione visivo-tattile rispetto a GPT-4V (+12%) e ai modelli open-source visione-linguaggio (+32%) su un nuovo benchmark di comprensione touch-vision. Codice e dati: https://tactile-vlm.github.io.

English

Touch is an important sensing modality for humans, but it has not yet been incorporated into a multimodal generative language model. This is partially due to the difficulty of obtaining natural language labels for tactile data and the complexity of aligning tactile readings with both visual observations and language descriptions. As a step towards bridging that gap, this work introduces a new dataset of 44K in-the-wild vision-touch pairs, with English language labels annotated by humans (10%) and textual pseudo-labels from GPT-4V (90%). We use this dataset to train a vision-language-aligned tactile encoder for open-vocabulary classification and a touch-vision-language (TVL) model for text generation using the trained encoder. Results suggest that by incorporating touch, the TVL model improves (+29% classification accuracy) touch-vision-language alignment over existing models trained on any pair of those modalities. Although only a small fraction of the dataset is human-labeled, the TVL model demonstrates improved visual-tactile understanding over GPT-4V (+12%) and open-source vision-language models (+32%) on a new touch-vision understanding benchmark. Code and data: https://tactile-vlm.github.io.

Un Dataset di Tatto, Visione e Linguaggio per l'Allineamento Multimodale

A Touch, Vision, and Language Dataset for Multimodal Alignment

Abstract

Support