ChatPaper.aiChatPaper

VisualWebInstruct: 웹 검색을 통한 멀티모달 명령어 데이터의 대규모 확장

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

March 13, 2025
저자: Yiming Jia, Jiachen Li, Xiang Yue, Bo Li, Ping Nie, Kai Zou, Wenhu Chen
cs.AI

초록

비전-언어 모델(Vision-Language Models)은 많은 인식 중심 작업에서 상당한 진전을 이루었지만, 고품질이고 다양한 학습 데이터의 부족으로 인해 추론 중심 작업에서는 진전이 제한적인 것으로 보입니다. 본 연구에서는 추론 중심의 멀티모달 데이터셋 부족 문제를 해결하고자 합니다. 우리는 VisualWebInstruct라는 새로운 접근 방식을 제안합니다. 이 방법은 검색 엔진을 활용하여 수학, 물리학, 금융, 화학 등 다양한 분야에 걸친 고품질의 데이터셋을 생성합니다. 신중하게 선별된 30,000개의 시드 이미지를 시작점으로, Google 이미지 검색을 사용하여 유사한 이미지를 포함한 웹사이트를 식별합니다. 700,000개 이상의 고유 URL 소스에서 HTML을 수집 및 처리합니다. 콘텐츠 추출, 필터링 및 합성 파이프라인을 통해 약 900,000개의 질문-답변 쌍으로 구성된 데이터셋을 구축하며, 이 중 40%는 시각적 QA 쌍이고 나머지는 텍스트 QA 쌍입니다. VisualWebInstruct로 미세 조정된 모델은 상당한 성능 향상을 보여줍니다: (1) Llava-OV-mid에서 학습한 모델은 벤치마크 전반에 걸쳐 10-20%의 절대적 성능 향상을 보였고, (2) MAmmoTH-VL에서 학습한 모델은 5%의 절대적 성능 향상을 보였습니다. 우리의 최고 성능 모델인 MAmmoTH-VL2는 10B 파라미터 클래스 내에서 MMMU-Pro-std(40.7%), MathVerse(42.6%), DynaMath(55.7%)에서 최첨단 성능을 달성했습니다. 이러한 놀라운 결과는 우리의 데이터셋이 복잡한 멀티모달 작업에 대한 VLM의 추론 능력을 향상시키는 데 효과적임을 보여줍니다.
English
Vision-Language Models have made significant progress on many perception-focused tasks, however, their progress on reasoning-focused tasks seem to be limited due to the lack of high-quality and diverse training data. In this work, we aim to address the scarcity issue of reasoning-focused multimodal datasets. We propose VisualWebInstruct - a novel approach that leverages search engine to create a diverse, and high-quality dataset spanning multiple disciplines like math, physics, finance, chemistry, etc. Starting with meticulously selected 30,000 seed images, we employ Google Image search to identify websites containing similar images. We collect and process the HTMLs from over 700K unique URL sources. Through a pipeline of content extraction, filtering and synthesis, we build a dataset of approximately 900K question-answer pairs, with 40% being visual QA pairs and the rest as text QA pairs. Models fine-tuned on VisualWebInstruct demonstrate significant performance gains: (1) training from Llava-OV-mid shows 10-20% absolute point gains across benchmarks, (2) training from MAmmoTH-VL shows 5% absoluate gain. Our best model MAmmoTH-VL2 shows state-of-the-art performance within the 10B parameter class on MMMU-Pro-std (40.7%), MathVerse (42.6%), and DynaMath (55.7%). These remarkable results highlight the effectiveness of our dataset in enhancing VLMs' reasoning capabilities for complex multimodal tasks.

Summary

AI-Generated Summary

PDF232March 14, 2025