ChatPaper.aiChatPaper

VolDoGer: LLM-ondersteunde datasets voor domeingeneralizatie in visueel-taalkundige taken

VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks

July 29, 2024
Auteurs: Juhwan Choi, Junehyoung Kwon, JungMin Yun, Seunguk Yu, YoungBin Kim
cs.AI

Samenvatting

Domeingeneraliseerbaarheid is een cruciaal aspect van een deep learning-model, omdat het de capaciteit van het model bepaalt om goed te presteren op gegevens uit onbekende domeinen. Onderzoek naar de domeingeneraliseerbaarheid van deep learning-modellen voor visueel-taalkundige taken blijft echter beperkt, voornamelijk vanwege het ontbreken van de benodigde datasets. Om deze uitdagingen aan te pakken, stellen we VolDoGer voor: Vision-Language Dataset for Domain Generalization, een speciaal ontworpen dataset voor domeingeneraliseerbaarheid die drie visueel-taalkundige taken behandelt: beeldbeschrijving, visuele vraagbeantwoording en visuele implicatie. We hebben VolDoGer geconstrueerd door LLM-gebaseerde data-annotatietechnieken uit te breiden naar visueel-taalkundige taken, waardoor de last van het werven van menselijke annotatoren wordt verlicht. We hebben de domeingeneraliseerbaarheid van verschillende modellen, variërend van fijn afgestemde modellen tot een recent groot multimodaal taalmodel, geëvalueerd via VolDoGer.
English
Domain generalizability is a crucial aspect of a deep learning model since it determines the capability of the model to perform well on data from unseen domains. However, research on the domain generalizability of deep learning models for vision-language tasks remains limited, primarily because of the lack of required datasets. To address these challenges, we propose VolDoGer: Vision-Language Dataset for Domain Generalization, a dedicated dataset designed for domain generalization that addresses three vision-language tasks: image captioning, visual question answering, and visual entailment. We constructed VolDoGer by extending LLM-based data annotation techniques to vision-language tasks, thereby alleviating the burden of recruiting human annotators. We evaluated the domain generalizability of various models, ranging from fine-tuned models to a recent multimodal large language model, through VolDoGer.
PDF113February 8, 2026