VolDoGer: 비전-언어 작업에서의 도메인 일반화를 위한 LLM 지원 데이터셋
VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks
July 29, 2024
저자: Juhwan Choi, Junehyoung Kwon, JungMin Yun, Seunguk Yu, YoungBin Kim
cs.AI
초록
도메인 일반화 능력은 딥러닝 모델이 보지 못한 도메인의 데이터에서도 잘 수행할 수 있는 능력을 결정하기 때문에 매우 중요한 측면입니다. 그러나 비전-언어 작업을 위한 딥러닝 모델의 도메인 일반화에 대한 연구는 필요한 데이터셋의 부족으로 인해 여전히 제한적입니다. 이러한 문제를 해결하기 위해, 우리는 도메인 일반화를 위해 특별히 설계된 데이터셋인 VolDoGer: Vision-Language Dataset for Domain Generalization를 제안합니다. 이 데이터셋은 이미지 캡셔닝, 시각 질의응답, 시각적 함의라는 세 가지 비전-언어 작업을 다룹니다. 우리는 LLM 기반 데이터 주석 기술을 비전-언어 작업으로 확장하여 VolDoGer를 구축함으로써 인간 주석가를 고용하는 부담을 줄였습니다. 우리는 VolDoGer를 통해 미세 조정된 모델부터 최근의 멀티모달 대형 언어 모델에 이르기까지 다양한 모델의 도메인 일반화 능력을 평가했습니다.
English
Domain generalizability is a crucial aspect of a deep learning model since it
determines the capability of the model to perform well on data from unseen
domains. However, research on the domain generalizability of deep learning
models for vision-language tasks remains limited, primarily because of the lack
of required datasets. To address these challenges, we propose VolDoGer:
Vision-Language Dataset for Domain Generalization, a dedicated dataset designed
for domain generalization that addresses three vision-language tasks: image
captioning, visual question answering, and visual entailment. We constructed
VolDoGer by extending LLM-based data annotation techniques to vision-language
tasks, thereby alleviating the burden of recruiting human annotators. We
evaluated the domain generalizability of various models, ranging from
fine-tuned models to a recent multimodal large language model, through
VolDoGer.Summary
AI-Generated Summary