ChatPaper.aiChatPaper

VolDoGer: 視覚言語タスクにおけるドメイン一般化のためのLLM支援データセット

VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks

July 29, 2024
著者: Juhwan Choi, Junehyoung Kwon, JungMin Yun, Seunguk Yu, YoungBin Kim
cs.AI

要旨

ドメイン汎化性能は、深層学習モデルにとって重要な側面であり、未見のドメインからのデータに対しても良好な性能を発揮する能力を決定します。しかし、視覚言語タスクにおける深層学習モデルのドメイン汎化性能に関する研究は、必要なデータセットの不足から限定的な状況にあります。これらの課題に対処するため、我々はVolDoGer: Vision-Language Dataset for Domain Generalizationを提案します。これは、ドメイン汎化に特化したデータセットであり、画像キャプショニング、視覚的質問応答、視覚的含意という3つの視覚言語タスクに対応しています。VolDoGerは、LLMベースのデータアノテーション技術を視覚言語タスクに拡張することで構築され、人間のアノテーターを募集する負担を軽減しています。我々は、ファインチューニングされたモデルから最近のマルチモーダル大規模言語モデルまで、様々なモデルのドメイン汎化性能をVolDoGerを通じて評価しました。
English
Domain generalizability is a crucial aspect of a deep learning model since it determines the capability of the model to perform well on data from unseen domains. However, research on the domain generalizability of deep learning models for vision-language tasks remains limited, primarily because of the lack of required datasets. To address these challenges, we propose VolDoGer: Vision-Language Dataset for Domain Generalization, a dedicated dataset designed for domain generalization that addresses three vision-language tasks: image captioning, visual question answering, and visual entailment. We constructed VolDoGer by extending LLM-based data annotation techniques to vision-language tasks, thereby alleviating the burden of recruiting human annotators. We evaluated the domain generalizability of various models, ranging from fine-tuned models to a recent multimodal large language model, through VolDoGer.

Summary

AI-Generated Summary

PDF113November 28, 2024