Ein multimodales Ausrichtungsdatensatz für Berührung, Sehen und Sprache
A Touch, Vision, and Language Dataset for Multimodal Alignment
February 20, 2024
Autoren: Letian Fu, Gaurav Datta, Huang Huang, William Chung-Ho Panitch, Jaimyn Drake, Joseph Ortiz, Mustafa Mukadam, Mike Lambeta, Roberto Calandra, Ken Goldberg
cs.AI
Zusammenfassung
Berührung ist eine wichtige Sinnesmodalität für Menschen, wurde jedoch noch nicht in ein multimodales generatives Sprachmodell integriert. Dies liegt teilweise an der Schwierigkeit, natürliche Sprachlabels für taktile Daten zu erhalten, sowie an der Komplexität, taktile Messungen sowohl mit visuellen Beobachtungen als auch mit Sprachbeschreibungen in Einklang zu bringen. Als Schritt zur Überbrückung dieser Lücke stellt diese Arbeit einen neuen Datensatz mit 44.000 Vision-Touch-Paaren aus der realen Welt vor, die mit englischen Sprachlabels versehen sind, die zu 10 % von Menschen annotiert und zu 90 % als Text-Pseudo-Labels von GPT-4V generiert wurden. Wir verwenden diesen Datensatz, um einen visuell-sprachlich ausgerichteten taktilen Encoder für die offene Vokabelklassifizierung und ein Touch-Vision-Language (TVL)-Modell zur Textgenerierung mit dem trainierten Encoder zu trainieren. Die Ergebnisse deuten darauf hin, dass das TVL-Modell durch die Einbeziehung von Berührung die Ausrichtung von Berührung, Vision und Sprache im Vergleich zu bestehenden Modellen, die auf einem beliebigen Paar dieser Modalitäten trainiert wurden, verbessert (+29 % Klassifizierungsgenauigkeit). Obwohl nur ein kleiner Teil des Datensatzes von Menschen annotiert wurde, zeigt das TVL-Modell ein verbessertes Verständnis von visuell-taktilen Zusammenhängen gegenüber GPT-4V (+12 %) und Open-Source-Vision-Language-Modellen (+32 %) in einem neuen Benchmark für taktil-visuelles Verständnis. Code und Daten: https://tactile-vlm.github.io.
English
Touch is an important sensing modality for humans, but it has not yet been
incorporated into a multimodal generative language model. This is partially due
to the difficulty of obtaining natural language labels for tactile data and the
complexity of aligning tactile readings with both visual observations and
language descriptions. As a step towards bridging that gap, this work
introduces a new dataset of 44K in-the-wild vision-touch pairs, with English
language labels annotated by humans (10%) and textual pseudo-labels from GPT-4V
(90%). We use this dataset to train a vision-language-aligned tactile encoder
for open-vocabulary classification and a touch-vision-language (TVL) model for
text generation using the trained encoder. Results suggest that by
incorporating touch, the TVL model improves (+29% classification accuracy)
touch-vision-language alignment over existing models trained on any pair of
those modalities. Although only a small fraction of the dataset is
human-labeled, the TVL model demonstrates improved visual-tactile understanding
over GPT-4V (+12%) and open-source vision-language models (+32%) on a new
touch-vision understanding benchmark. Code and data:
https://tactile-vlm.github.io.Summary
AI-Generated Summary