ChatPaper.aiChatPaper

미세조정된 멀티모달 언어 모델은 고품질 이미지-텍스트 데이터 필터입니다

Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters

March 5, 2024
저자: Weizhi Wang, Khalil Mrini, Linjie Yang, Sateesh Kumar, Yu Tian, Xifeng Yan, Heng Wang
cs.AI

초록

우리는 미세 조정된 멀티모달 언어 모델(MLM)을 활용하여 이미지-텍스트 데이터를 필터링하는 새로운 프레임워크를 제안합니다. 우리의 접근 방식은 최근의 MLM 발전을 통합함으로써 기존의 주요 필터링 방법(예: CLIPScore)을 능가합니다. 우리는 이미지-텍스트 데이터의 품질을 종합적으로 측정하기 위해 네 가지 독특하면서도 상호 보완적인 메트릭을 설계했습니다. 또한 MLM을 데이터 필터로 미세 조정하기 위한 고품질 명령 데이터를 구축하는 새로운 파이프라인을 구축했습니다. CLIPScore와 비교했을 때, 우리의 MLM 필터는 더 정확하고 포괄적인 점수를 생성하여 필터링된 데이터의 품질을 직접 개선하고 사전 훈련된 모델의 성능을 향상시킵니다. 우리는 인기 있는 기초 모델(즉, CLIP 및 BLIP2)과 다양한 다운스트림 작업에서 CLIPScore 대비 상당한 개선을 달성했습니다. 우리의 MLM 필터는 다양한 모델과 작업에 일반화될 수 있으며, CLIPScore의 대체품으로 바로 사용될 수 있습니다. 추가적으로, MLM 필터의 설계 선택을 검증하기 위한 추가적인 어블레이션 연구를 제공합니다.
English
We propose a novel framework for filtering image-text data by leveraging fine-tuned Multimodal Language Models (MLMs). Our approach outperforms predominant filtering methods (e.g., CLIPScore) via integrating the recent advances in MLMs. We design four distinct yet complementary metrics to holistically measure the quality of image-text data. A new pipeline is established to construct high-quality instruction data for fine-tuning MLMs as data filters. Comparing with CLIPScore, our MLM filters produce more precise and comprehensive scores that directly improve the quality of filtered data and boost the performance of pre-trained models. We achieve significant improvements over CLIPScore on popular foundation models (i.e., CLIP and BLIP2) and various downstream tasks. Our MLM filter can generalize to different models and tasks, and be used as a drop-in replacement for CLIPScore. An additional ablation study is provided to verify our design choices for the MLM filter.
PDF181December 15, 2024