VolDoGer : Ensembles de données assistés par LLM pour la généralisation de domaine dans les tâches vision-langage
VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks
July 29, 2024
Auteurs: Juhwan Choi, Junehyoung Kwon, JungMin Yun, Seunguk Yu, YoungBin Kim
cs.AI
Résumé
La généralisation inter-domaines est un aspect crucial d'un modèle d'apprentissage profond, car elle détermine la capacité du modèle à bien performer sur des données provenant de domaines non vus. Cependant, les recherches sur la généralisation inter-domaines des modèles d'apprentissage profond pour les tâches vision-langage restent limitées, principalement en raison du manque de jeux de données nécessaires. Pour relever ces défis, nous proposons VolDoGer : Vision-Language Dataset for Domain Generalization, un jeu de données dédié conçu pour la généralisation inter-domaines, qui aborde trois tâches vision-langage : la génération de légendes d'images, la réponse à des questions visuelles et l'implication visuelle. Nous avons construit VolDoGer en étendant les techniques d'annotation de données basées sur des modèles de langage de grande taille (LLM) aux tâches vision-langage, réduisant ainsi la nécessité de recruter des annotateurs humains. Nous avons évalué la généralisation inter-domaines de divers modèles, allant de modèles fine-tunés à un récent modèle de langage multimodal de grande taille, à travers VolDoGer.
English
Domain generalizability is a crucial aspect of a deep learning model since it
determines the capability of the model to perform well on data from unseen
domains. However, research on the domain generalizability of deep learning
models for vision-language tasks remains limited, primarily because of the lack
of required datasets. To address these challenges, we propose VolDoGer:
Vision-Language Dataset for Domain Generalization, a dedicated dataset designed
for domain generalization that addresses three vision-language tasks: image
captioning, visual question answering, and visual entailment. We constructed
VolDoGer by extending LLM-based data annotation techniques to vision-language
tasks, thereby alleviating the burden of recruiting human annotators. We
evaluated the domain generalizability of various models, ranging from
fine-tuned models to a recent multimodal large language model, through
VolDoGer.Summary
AI-Generated Summary