VolDoGer: LLM-unterstützte Datensätze für die Domänengeneralisierung in Vision-Language-Aufgaben
VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks
July 29, 2024
Autoren: Juhwan Choi, Junehyoung Kwon, JungMin Yun, Seunguk Yu, YoungBin Kim
cs.AI
Zusammenfassung
Die Generalisierbarkeit auf verschiedene Domänen ist ein entscheidender Aspekt eines Deep-Learning-Modells, da sie die Fähigkeit des Modells bestimmt, gut auf Daten aus unbekannten Domänen zu performen. Die Forschung zur Generalisierbarkeit von Deep-Learning-Modellen für Vision-Sprach-Aufgaben ist jedoch begrenzt, hauptsächlich aufgrund des Mangels an erforderlichen Datensätzen. Um diesen Herausforderungen zu begegnen, schlagen wir VolDoGer vor: Vision-Language Dataset für Domain Generalization, ein spezieller Datensatz, der für die Generalisierung auf verschiedene Domänen entwickelt wurde und drei Vision-Sprach-Aufgaben umfasst: Bildbeschriftung, visuelle Fragebeantwortung und visuelle Schlussfolgerung. Wir haben VolDoGer konstruiert, indem wir LLM-basierte Datenannotations-Techniken auf Vision-Sprach-Aufgaben erweitert haben, wodurch die Belastung durch die Rekrutierung menschlicher Annotatoren verringert wird. Wir haben die Generalisierbarkeit auf verschiedene Domänen verschiedener Modelle, von feinabgestimmten Modellen bis hin zu einem kürzlich erschienenen multimodalen großen Sprachmodell, durch VolDoGer evaluiert.
English
Domain generalizability is a crucial aspect of a deep learning model since it
determines the capability of the model to perform well on data from unseen
domains. However, research on the domain generalizability of deep learning
models for vision-language tasks remains limited, primarily because of the lack
of required datasets. To address these challenges, we propose VolDoGer:
Vision-Language Dataset for Domain Generalization, a dedicated dataset designed
for domain generalization that addresses three vision-language tasks: image
captioning, visual question answering, and visual entailment. We constructed
VolDoGer by extending LLM-based data annotation techniques to vision-language
tasks, thereby alleviating the burden of recruiting human annotators. We
evaluated the domain generalizability of various models, ranging from
fine-tuned models to a recent multimodal large language model, through
VolDoGer.Summary
AI-Generated Summary