ChatPaper.aiChatPaper

Een dataset voor aanraking, visie en taal voor multimodale uitlijning

A Touch, Vision, and Language Dataset for Multimodal Alignment

February 20, 2024
Auteurs: Letian Fu, Gaurav Datta, Huang Huang, William Chung-Ho Panitch, Jaimyn Drake, Joseph Ortiz, Mustafa Mukadam, Mike Lambeta, Roberto Calandra, Ken Goldberg
cs.AI

Samenvatting

Tastzin is een belangrijk zintuiglijk vermogen voor mensen, maar het is nog niet geïntegreerd in een multimodaal generatief taalmodel. Dit komt deels door de moeilijkheid om natuurlijke taal labels te verkrijgen voor tactiele data en de complexiteit van het afstemmen van tactiele metingen op zowel visuele waarnemingen als taal beschrijvingen. Als een stap in de richting van het overbruggen van deze kloof introduceert dit werk een nieuwe dataset van 44K vision-touch paren uit de praktijk, met Engelse taal labels geannoteerd door mensen (10%) en tekstuele pseudo-labels van GPT-4V (90%). We gebruiken deze dataset om een vision-language-afgestemde tactiele encoder te trainen voor open-vocabulary classificatie en een touch-vision-language (TVL) model voor tekstgeneratie met behulp van de getrainde encoder. Resultaten suggereren dat door het integreren van tastzin, het TVL-model de touch-vision-language afstemming verbetert (+29% classificatie nauwkeurigheid) ten opzichte van bestaande modellen die getraind zijn op elk paar van die modaliteiten. Hoewel slechts een klein deel van de dataset door mensen is gelabeld, toont het TVL-model een verbeterd visueel-tactiel begrip ten opzichte van GPT-4V (+12%) en open-source vision-language modellen (+32%) op een nieuwe touch-vision begrip benchmark. Code en data: https://tactile-vlm.github.io.
English
Touch is an important sensing modality for humans, but it has not yet been incorporated into a multimodal generative language model. This is partially due to the difficulty of obtaining natural language labels for tactile data and the complexity of aligning tactile readings with both visual observations and language descriptions. As a step towards bridging that gap, this work introduces a new dataset of 44K in-the-wild vision-touch pairs, with English language labels annotated by humans (10%) and textual pseudo-labels from GPT-4V (90%). We use this dataset to train a vision-language-aligned tactile encoder for open-vocabulary classification and a touch-vision-language (TVL) model for text generation using the trained encoder. Results suggest that by incorporating touch, the TVL model improves (+29% classification accuracy) touch-vision-language alignment over existing models trained on any pair of those modalities. Although only a small fraction of the dataset is human-labeled, the TVL model demonstrates improved visual-tactile understanding over GPT-4V (+12%) and open-source vision-language models (+32%) on a new touch-vision understanding benchmark. Code and data: https://tactile-vlm.github.io.
PDF161December 15, 2024