ChatPaper.aiChatPaper

VisualWebInstruct: Schaalvergroting van Multimodale Instructiedata via Webzoeken

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

March 13, 2025
Auteurs: Yiming Jia, Jiachen Li, Xiang Yue, Bo Li, Ping Nie, Kai Zou, Wenhu Chen
cs.AI

Samenvatting

Vision-Language Models hebben aanzienlijke vooruitgang geboekt op veel perceptiegerichte taken, maar hun vooruitgang op redeneergerichte taken lijkt beperkt te zijn vanwege het gebrek aan hoogwaardige en diverse trainingsdata. In dit werk streven we ernaar het tekort aan redeneergerichte multimodale datasets aan te pakken. We stellen VisualWebInstruct voor - een nieuwe aanpak die gebruikmaakt van zoekmachines om een diverse en hoogwaardige dataset te creëren die meerdere disciplines omvat, zoals wiskunde, natuurkunde, financiën, scheikunde, enz. We beginnen met zorgvuldig geselecteerde 30.000 startafbeeldingen en gebruiken Google Image Search om websites te identificeren die vergelijkbare afbeeldingen bevatten. We verzamelen en verwerken de HTML's van meer dan 700K unieke URL-bronnen. Door een pijplijn van inhoudsextractie, filtering en synthese bouwen we een dataset van ongeveer 900K vraag-antwoordparen, waarvan 40% visuele QA-paren zijn en de rest tekstuele QA-paren. Modellen die zijn afgestemd op VisualWebInstruct laten aanzienlijke prestatieverbeteringen zien: (1) training vanaf Llava-OV-mid toont 10-20% absolute puntwinsten op benchmarks, (2) training vanaf MAmmoTH-VL toont een absolute winst van 5%. Ons beste model, MAmmoTH-VL2, toont state-of-the-art prestaties binnen de 10B parameterklasse op MMMU-Pro-std (40,7%), MathVerse (42,6%) en DynaMath (55,7%). Deze opmerkelijke resultaten benadrukken de effectiviteit van onze dataset in het verbeteren van de redeneervaardigheden van VLMs voor complexe multimodale taken.
English
Vision-Language Models have made significant progress on many perception-focused tasks, however, their progress on reasoning-focused tasks seem to be limited due to the lack of high-quality and diverse training data. In this work, we aim to address the scarcity issue of reasoning-focused multimodal datasets. We propose VisualWebInstruct - a novel approach that leverages search engine to create a diverse, and high-quality dataset spanning multiple disciplines like math, physics, finance, chemistry, etc. Starting with meticulously selected 30,000 seed images, we employ Google Image search to identify websites containing similar images. We collect and process the HTMLs from over 700K unique URL sources. Through a pipeline of content extraction, filtering and synthesis, we build a dataset of approximately 900K question-answer pairs, with 40% being visual QA pairs and the rest as text QA pairs. Models fine-tuned on VisualWebInstruct demonstrate significant performance gains: (1) training from Llava-OV-mid shows 10-20% absolute point gains across benchmarks, (2) training from MAmmoTH-VL shows 5% absoluate gain. Our best model MAmmoTH-VL2 shows state-of-the-art performance within the 10B parameter class on MMMU-Pro-std (40.7%), MathVerse (42.6%), and DynaMath (55.7%). These remarkable results highlight the effectiveness of our dataset in enhancing VLMs' reasoning capabilities for complex multimodal tasks.

Summary

AI-Generated Summary

PDF232March 14, 2025