Ein multimodales Ausrichtungsdatensatz für Berührung, Sehen und Sprache

papers.abstract

Berührung ist eine wichtige Sinnesmodalität für Menschen, wurde jedoch noch nicht in ein multimodales generatives Sprachmodell integriert. Dies liegt teilweise an der Schwierigkeit, natürliche Sprachlabels für taktile Daten zu erhalten, sowie an der Komplexität, taktile Messungen sowohl mit visuellen Beobachtungen als auch mit Sprachbeschreibungen in Einklang zu bringen. Als Schritt zur Überbrückung dieser Lücke stellt diese Arbeit einen neuen Datensatz mit 44.000 Vision-Touch-Paaren aus der realen Welt vor, die mit englischen Sprachlabels versehen sind, die zu 10 % von Menschen annotiert und zu 90 % als Text-Pseudo-Labels von GPT-4V generiert wurden. Wir verwenden diesen Datensatz, um einen visuell-sprachlich ausgerichteten taktilen Encoder für die offene Vokabelklassifizierung und ein Touch-Vision-Language (TVL)-Modell zur Textgenerierung mit dem trainierten Encoder zu trainieren. Die Ergebnisse deuten darauf hin, dass das TVL-Modell durch die Einbeziehung von Berührung die Ausrichtung von Berührung, Vision und Sprache im Vergleich zu bestehenden Modellen, die auf einem beliebigen Paar dieser Modalitäten trainiert wurden, verbessert (+29 % Klassifizierungsgenauigkeit). Obwohl nur ein kleiner Teil des Datensatzes von Menschen annotiert wurde, zeigt das TVL-Modell ein verbessertes Verständnis von visuell-taktilen Zusammenhängen gegenüber GPT-4V (+12 %) und Open-Source-Vision-Language-Modellen (+32 %) in einem neuen Benchmark für taktil-visuelles Verständnis. Code und Daten: https://tactile-vlm.github.io.

English

Touch is an important sensing modality for humans, but it has not yet been incorporated into a multimodal generative language model. This is partially due to the difficulty of obtaining natural language labels for tactile data and the complexity of aligning tactile readings with both visual observations and language descriptions. As a step towards bridging that gap, this work introduces a new dataset of 44K in-the-wild vision-touch pairs, with English language labels annotated by humans (10%) and textual pseudo-labels from GPT-4V (90%). We use this dataset to train a vision-language-aligned tactile encoder for open-vocabulary classification and a touch-vision-language (TVL) model for text generation using the trained encoder. Results suggest that by incorporating touch, the TVL model improves (+29% classification accuracy) touch-vision-language alignment over existing models trained on any pair of those modalities. Although only a small fraction of the dataset is human-labeled, the TVL model demonstrates improved visual-tactile understanding over GPT-4V (+12%) and open-source vision-language models (+32%) on a new touch-vision understanding benchmark. Code and data: https://tactile-vlm.github.io.

Ein multimodales Ausrichtungsdatensatz für Berührung, Sehen und Sprache

A Touch, Vision, and Language Dataset for Multimodal Alignment

papers.abstract

Support