VisualWebInstruct : Mise à l'échelle des données d'instruction multimodales via la recherche web
VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search
March 13, 2025
Auteurs: Yiming Jia, Jiachen Li, Xiang Yue, Bo Li, Ping Nie, Kai Zou, Wenhu Chen
cs.AI
Résumé
Les modèles vision-langage ont réalisé des progrès significatifs sur de nombreuses tâches axées sur la perception, mais leurs avancées sur les tâches centrées sur le raisonnement semblent limitées en raison du manque de données d'entraînement de haute qualité et diversifiées. Dans ce travail, nous visons à résoudre le problème de la rareté des ensembles de données multimodales axés sur le raisonnement. Nous proposons VisualWebInstruct - une approche novatrice qui exploite les moteurs de recherche pour créer un ensemble de données diversifié et de haute qualité couvrant plusieurs disciplines comme les mathématiques, la physique, la finance, la chimie, etc. En partant de 30 000 images soigneusement sélectionnées, nous utilisons la recherche d'images Google pour identifier des sites web contenant des images similaires. Nous collectons et traitons les HTMLs provenant de plus de 700 000 sources URL uniques. Grâce à un pipeline d'extraction de contenu, de filtrage et de synthèse, nous construisons un ensemble de données d'environ 900 000 paires question-réponse, dont 40 % sont des paires visuelles question-réponse et le reste des paires textuelles question-réponse. Les modèles affinés sur VisualWebInstruct démontrent des gains de performance significatifs : (1) l'entraînement à partir de Llava-OV-mid montre des gains absolus de 10 à 20 points sur les benchmarks, (2) l'entraînement à partir de MAmmoTH-VL montre un gain absolu de 5 %. Notre meilleur modèle, MAmmoTH-VL2, affiche des performances de pointe dans la classe des 10 milliards de paramètres sur MMMU-Pro-std (40,7 %), MathVerse (42,6 %) et DynaMath (55,7 %). Ces résultats remarquables mettent en évidence l'efficacité de notre ensemble de données pour améliorer les capacités de raisonnement des modèles vision-langage sur des tâches multimodales complexes.
English
Vision-Language Models have made significant progress on many
perception-focused tasks, however, their progress on reasoning-focused tasks
seem to be limited due to the lack of high-quality and diverse training data.
In this work, we aim to address the scarcity issue of reasoning-focused
multimodal datasets. We propose VisualWebInstruct - a novel approach that
leverages search engine to create a diverse, and high-quality dataset spanning
multiple disciplines like math, physics, finance, chemistry, etc. Starting with
meticulously selected 30,000 seed images, we employ Google Image search to
identify websites containing similar images. We collect and process the HTMLs
from over 700K unique URL sources. Through a pipeline of content extraction,
filtering and synthesis, we build a dataset of approximately 900K
question-answer pairs, with 40% being visual QA pairs and the rest as text QA
pairs. Models fine-tuned on VisualWebInstruct demonstrate significant
performance gains: (1) training from Llava-OV-mid shows 10-20% absolute point
gains across benchmarks, (2) training from MAmmoTH-VL shows 5% absoluate gain.
Our best model MAmmoTH-VL2 shows state-of-the-art performance within the 10B
parameter class on MMMU-Pro-std (40.7%), MathVerse (42.6%), and DynaMath
(55.7%). These remarkable results highlight the effectiveness of our dataset in
enhancing VLMs' reasoning capabilities for complex multimodal tasks.Summary
AI-Generated Summary