VolDoGer: Наборы данных, поддерживаемые LLM, для обобщения области в задачах видео-языкового восприятия
VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks
July 29, 2024
Авторы: Juhwan Choi, Junehyoung Kwon, JungMin Yun, Seunguk Yu, YoungBin Kim
cs.AI
Аннотация
Обобщаемость области является ключевым аспектом модели глубокого обучения, поскольку она определяет способность модели хорошо работать на данных из невидимых областей. Однако исследования обобщаемости области моделей глубокого обучения для задач видео-языков остаются ограниченными, в основном из-за недостатка необходимых наборов данных. Для решения этих проблем мы предлагаем VolDoGer: Набор данных видео-языков для обобщения области, специально разработанный набор данных, предназначенный для обобщения области, который решает три задачи видео-языков: описание изображения, визуальный ответ на вопрос и визуальное следствие. Мы создали VolDoGer, расширив техники аннотации данных на основе LLM на задачи видео-языков, тем самым снимая бремя найма человеческих аннотаторов. Мы оценили обобщаемость области различных моделей, начиная от моделей с тонкой настройкой до недавней мультимодальной крупной языковой модели, через VolDoGer.
English
Domain generalizability is a crucial aspect of a deep learning model since it
determines the capability of the model to perform well on data from unseen
domains. However, research on the domain generalizability of deep learning
models for vision-language tasks remains limited, primarily because of the lack
of required datasets. To address these challenges, we propose VolDoGer:
Vision-Language Dataset for Domain Generalization, a dedicated dataset designed
for domain generalization that addresses three vision-language tasks: image
captioning, visual question answering, and visual entailment. We constructed
VolDoGer by extending LLM-based data annotation techniques to vision-language
tasks, thereby alleviating the burden of recruiting human annotators. We
evaluated the domain generalizability of various models, ranging from
fine-tuned models to a recent multimodal large language model, through
VolDoGer.Summary
AI-Generated Summary