VolDoGer: Наборы данных, поддерживаемые LLM, для обобщения области в задачах видео-языкового восприятия

Аннотация

Обобщаемость области является ключевым аспектом модели глубокого обучения, поскольку она определяет способность модели хорошо работать на данных из невидимых областей. Однако исследования обобщаемости области моделей глубокого обучения для задач видео-языков остаются ограниченными, в основном из-за недостатка необходимых наборов данных. Для решения этих проблем мы предлагаем VolDoGer: Набор данных видео-языков для обобщения области, специально разработанный набор данных, предназначенный для обобщения области, который решает три задачи видео-языков: описание изображения, визуальный ответ на вопрос и визуальное следствие. Мы создали VolDoGer, расширив техники аннотации данных на основе LLM на задачи видео-языков, тем самым снимая бремя найма человеческих аннотаторов. Мы оценили обобщаемость области различных моделей, начиная от моделей с тонкой настройкой до недавней мультимодальной крупной языковой модели, через VolDoGer.

English

Domain generalizability is a crucial aspect of a deep learning model since it determines the capability of the model to perform well on data from unseen domains. However, research on the domain generalizability of deep learning models for vision-language tasks remains limited, primarily because of the lack of required datasets. To address these challenges, we propose VolDoGer: Vision-Language Dataset for Domain Generalization, a dedicated dataset designed for domain generalization that addresses three vision-language tasks: image captioning, visual question answering, and visual entailment. We constructed VolDoGer by extending LLM-based data annotation techniques to vision-language tasks, thereby alleviating the burden of recruiting human annotators. We evaluated the domain generalizability of various models, ranging from fine-tuned models to a recent multimodal large language model, through VolDoGer.

VolDoGer: Наборы данных, поддерживаемые LLM, для обобщения области в задачах видео-языкового восприятия

VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks

Аннотация

Support