Um Conjunto de Dados de Toque, Visão e Linguagem para Alinhamento Multimodal
A Touch, Vision, and Language Dataset for Multimodal Alignment
February 20, 2024
Autores: Letian Fu, Gaurav Datta, Huang Huang, William Chung-Ho Panitch, Jaimyn Drake, Joseph Ortiz, Mustafa Mukadam, Mike Lambeta, Roberto Calandra, Ken Goldberg
cs.AI
Resumo
O tato é uma modalidade sensorial importante para os humanos, mas ainda não foi incorporado em um modelo generativo de linguagem multimodal. Isso se deve, em parte, à dificuldade de obter rótulos em linguagem natural para dados táteis e à complexidade de alinhar leituras táteis com observações visuais e descrições linguísticas. Como um passo para preencher essa lacuna, este trabalho introduz um novo conjunto de dados de 44K pares visão-tato capturados em ambientes reais, com rótulos em inglês anotados por humanos (10%) e pseudo-rótulos textuais gerados pelo GPT-4V (90%). Utilizamos esse conjunto de dados para treinar um codificador tátil alinhado a visão e linguagem para classificação de vocabulário aberto e um modelo tato-visão-linguagem (TVL) para geração de texto usando o codificador treinado. Os resultados sugerem que, ao incorporar o tato, o modelo TVL melhora (+29% de precisão na classificação) o alinhamento tato-visão-linguagem em comparação com modelos existentes treinados em qualquer par dessas modalidades. Embora apenas uma pequena fração do conjunto de dados seja rotulada por humanos, o modelo TVL demonstra uma compreensão visão-tato aprimorada em relação ao GPT-4V (+12%) e a modelos de visão-linguagem de código aberto (+32%) em um novo benchmark de compreensão tato-visão. Código e dados: https://tactile-vlm.github.io.
English
Touch is an important sensing modality for humans, but it has not yet been
incorporated into a multimodal generative language model. This is partially due
to the difficulty of obtaining natural language labels for tactile data and the
complexity of aligning tactile readings with both visual observations and
language descriptions. As a step towards bridging that gap, this work
introduces a new dataset of 44K in-the-wild vision-touch pairs, with English
language labels annotated by humans (10%) and textual pseudo-labels from GPT-4V
(90%). We use this dataset to train a vision-language-aligned tactile encoder
for open-vocabulary classification and a touch-vision-language (TVL) model for
text generation using the trained encoder. Results suggest that by
incorporating touch, the TVL model improves (+29% classification accuracy)
touch-vision-language alignment over existing models trained on any pair of
those modalities. Although only a small fraction of the dataset is
human-labeled, the TVL model demonstrates improved visual-tactile understanding
over GPT-4V (+12%) and open-source vision-language models (+32%) on a new
touch-vision understanding benchmark. Code and data:
https://tactile-vlm.github.io.