VolDoGer: LLM-ondersteunde datasets voor domeingeneralizatie in visueel-taalkundige taken
VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks
July 29, 2024
Auteurs: Juhwan Choi, Junehyoung Kwon, JungMin Yun, Seunguk Yu, YoungBin Kim
cs.AI
Samenvatting
Domeingeneraliseerbaarheid is een cruciaal aspect van een deep learning-model, omdat het de capaciteit van het model bepaalt om goed te presteren op gegevens uit onbekende domeinen. Onderzoek naar de domeingeneraliseerbaarheid van deep learning-modellen voor visueel-taalkundige taken blijft echter beperkt, voornamelijk vanwege het ontbreken van de benodigde datasets. Om deze uitdagingen aan te pakken, stellen we VolDoGer voor: Vision-Language Dataset for Domain Generalization, een speciaal ontworpen dataset voor domeingeneraliseerbaarheid die drie visueel-taalkundige taken behandelt: beeldbeschrijving, visuele vraagbeantwoording en visuele implicatie. We hebben VolDoGer geconstrueerd door LLM-gebaseerde data-annotatietechnieken uit te breiden naar visueel-taalkundige taken, waardoor de last van het werven van menselijke annotatoren wordt verlicht. We hebben de domeingeneraliseerbaarheid van verschillende modellen, variërend van fijn afgestemde modellen tot een recent groot multimodaal taalmodel, geëvalueerd via VolDoGer.
English
Domain generalizability is a crucial aspect of a deep learning model since it
determines the capability of the model to perform well on data from unseen
domains. However, research on the domain generalizability of deep learning
models for vision-language tasks remains limited, primarily because of the lack
of required datasets. To address these challenges, we propose VolDoGer:
Vision-Language Dataset for Domain Generalization, a dedicated dataset designed
for domain generalization that addresses three vision-language tasks: image
captioning, visual question answering, and visual entailment. We constructed
VolDoGer by extending LLM-based data annotation techniques to vision-language
tasks, thereby alleviating the burden of recruiting human annotators. We
evaluated the domain generalizability of various models, ranging from
fine-tuned models to a recent multimodal large language model, through
VolDoGer.