ChatPaper.aiChatPaper

Набор данных для мультимодального согласования, включающий тактильные, визуальные и языковые данные

A Touch, Vision, and Language Dataset for Multimodal Alignment

February 20, 2024
Авторы: Letian Fu, Gaurav Datta, Huang Huang, William Chung-Ho Panitch, Jaimyn Drake, Joseph Ortiz, Mustafa Mukadam, Mike Lambeta, Roberto Calandra, Ken Goldberg
cs.AI

Аннотация

Осязание является важной сенсорной модальностью для человека, однако оно еще не было интегрировано в мультимодальные генеративные языковые модели. Это частично связано с трудностями получения естественно-языковых меток для тактильных данных и сложностью согласования тактильных показаний с визуальными наблюдениями и языковыми описаниями. В качестве шага к преодолению этого разрыва данная работа представляет новый набор данных, состоящий из 44 тысяч пар "зрение-осязание", собранных в естественных условиях, с английскими языковыми метками, аннотированными людьми (10%), и текстовыми псевдо-метками, сгенерированными GPT-4V (90%). Мы используем этот набор данных для обучения тактильного кодера, согласованного с визуальным и языковым представлением, для классификации с открытым словарем, а также модели "осязание-зрение-язык" (TVL) для генерации текста с использованием обученного кодера. Результаты показывают, что благодаря включению осязания модель TVL улучшает согласование "осязание-зрение-язык" (+29% точности классификации) по сравнению с существующими моделями, обученными на любой паре этих модальностей. Хотя лишь небольшая часть набора данных была аннотирована людьми, модель TVL демонстрирует улучшенное понимание визуально-тактильных связей по сравнению с GPT-4V (+12%) и открытыми моделями "зрение-язык" (+32%) на новом бенчмарке для понимания "осязание-зрение". Код и данные: https://tactile-vlm.github.io.
English
Touch is an important sensing modality for humans, but it has not yet been incorporated into a multimodal generative language model. This is partially due to the difficulty of obtaining natural language labels for tactile data and the complexity of aligning tactile readings with both visual observations and language descriptions. As a step towards bridging that gap, this work introduces a new dataset of 44K in-the-wild vision-touch pairs, with English language labels annotated by humans (10%) and textual pseudo-labels from GPT-4V (90%). We use this dataset to train a vision-language-aligned tactile encoder for open-vocabulary classification and a touch-vision-language (TVL) model for text generation using the trained encoder. Results suggest that by incorporating touch, the TVL model improves (+29% classification accuracy) touch-vision-language alignment over existing models trained on any pair of those modalities. Although only a small fraction of the dataset is human-labeled, the TVL model demonstrates improved visual-tactile understanding over GPT-4V (+12%) and open-source vision-language models (+32%) on a new touch-vision understanding benchmark. Code and data: https://tactile-vlm.github.io.
PDF151December 15, 2024