ChatPaper.aiChatPaper

Un conjunto de datos de tacto, visión y lenguaje para la alineación multimodal

A Touch, Vision, and Language Dataset for Multimodal Alignment

February 20, 2024
Autores: Letian Fu, Gaurav Datta, Huang Huang, William Chung-Ho Panitch, Jaimyn Drake, Joseph Ortiz, Mustafa Mukadam, Mike Lambeta, Roberto Calandra, Ken Goldberg
cs.AI

Resumen

El tacto es una modalidad sensorial importante para los seres humanos, pero aún no se ha incorporado en un modelo generativo de lenguaje multimodal. Esto se debe en parte a la dificultad de obtener etiquetas en lenguaje natural para datos táctiles y a la complejidad de alinear lecturas táctiles con observaciones visuales y descripciones lingüísticas. Como un paso hacia la reducción de esta brecha, este trabajo introduce un nuevo conjunto de datos de 44K pares visión-tacto capturados en entornos reales, con etiquetas en inglés anotadas por humanos (10%) y pseudo-etiquetas textuales generadas por GPT-4V (90%). Utilizamos este conjunto de datos para entrenar un codificador táctico alineado con visión y lenguaje para clasificación de vocabulario abierto, y un modelo tacto-visión-lenguaje (TVL) para generación de texto utilizando el codificador entrenado. Los resultados sugieren que, al incorporar el tacto, el modelo TVL mejora (+29% en precisión de clasificación) la alineación tacto-visión-lenguaje en comparación con modelos existentes entrenados en cualquier par de esas modalidades. Aunque solo una pequeña fracción del conjunto de datos está etiquetada por humanos, el modelo TVL demuestra una mejor comprensión visual-táctil sobre GPT-4V (+12%) y modelos de visión-lenguaje de código abierto (+32%) en un nuevo punto de referencia de comprensión tacto-visión. Código y datos: https://tactile-vlm.github.io.
English
Touch is an important sensing modality for humans, but it has not yet been incorporated into a multimodal generative language model. This is partially due to the difficulty of obtaining natural language labels for tactile data and the complexity of aligning tactile readings with both visual observations and language descriptions. As a step towards bridging that gap, this work introduces a new dataset of 44K in-the-wild vision-touch pairs, with English language labels annotated by humans (10%) and textual pseudo-labels from GPT-4V (90%). We use this dataset to train a vision-language-aligned tactile encoder for open-vocabulary classification and a touch-vision-language (TVL) model for text generation using the trained encoder. Results suggest that by incorporating touch, the TVL model improves (+29% classification accuracy) touch-vision-language alignment over existing models trained on any pair of those modalities. Although only a small fraction of the dataset is human-labeled, the TVL model demonstrates improved visual-tactile understanding over GPT-4V (+12%) and open-source vision-language models (+32%) on a new touch-vision understanding benchmark. Code and data: https://tactile-vlm.github.io.
PDF161December 15, 2024