VolDoGer : Ensembles de données assistés par LLM pour la généralisation de domaine dans les tâches vision-langage

papers.abstract

La généralisation inter-domaines est un aspect crucial d'un modèle d'apprentissage profond, car elle détermine la capacité du modèle à bien performer sur des données provenant de domaines non vus. Cependant, les recherches sur la généralisation inter-domaines des modèles d'apprentissage profond pour les tâches vision-langage restent limitées, principalement en raison du manque de jeux de données nécessaires. Pour relever ces défis, nous proposons VolDoGer : Vision-Language Dataset for Domain Generalization, un jeu de données dédié conçu pour la généralisation inter-domaines, qui aborde trois tâches vision-langage : la génération de légendes d'images, la réponse à des questions visuelles et l'implication visuelle. Nous avons construit VolDoGer en étendant les techniques d'annotation de données basées sur des modèles de langage de grande taille (LLM) aux tâches vision-langage, réduisant ainsi la nécessité de recruter des annotateurs humains. Nous avons évalué la généralisation inter-domaines de divers modèles, allant de modèles fine-tunés à un récent modèle de langage multimodal de grande taille, à travers VolDoGer.

English

Domain generalizability is a crucial aspect of a deep learning model since it determines the capability of the model to perform well on data from unseen domains. However, research on the domain generalizability of deep learning models for vision-language tasks remains limited, primarily because of the lack of required datasets. To address these challenges, we propose VolDoGer: Vision-Language Dataset for Domain Generalization, a dedicated dataset designed for domain generalization that addresses three vision-language tasks: image captioning, visual question answering, and visual entailment. We constructed VolDoGer by extending LLM-based data annotation techniques to vision-language tasks, thereby alleviating the burden of recruiting human annotators. We evaluated the domain generalizability of various models, ranging from fine-tuned models to a recent multimodal large language model, through VolDoGer.

VolDoGer : Ensembles de données assistés par LLM pour la généralisation de domaine dans les tâches vision-langage

VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks

papers.abstract

Support