VisualWebInstruct : Mise à l'échelle des données d'instruction multimodales via la recherche web

papers.abstract

Les modèles vision-langage ont réalisé des progrès significatifs sur de nombreuses tâches axées sur la perception, mais leurs avancées sur les tâches centrées sur le raisonnement semblent limitées en raison du manque de données d'entraînement de haute qualité et diversifiées. Dans ce travail, nous visons à résoudre le problème de la rareté des ensembles de données multimodales axés sur le raisonnement. Nous proposons VisualWebInstruct - une approche novatrice qui exploite les moteurs de recherche pour créer un ensemble de données diversifié et de haute qualité couvrant plusieurs disciplines comme les mathématiques, la physique, la finance, la chimie, etc. En partant de 30 000 images soigneusement sélectionnées, nous utilisons la recherche d'images Google pour identifier des sites web contenant des images similaires. Nous collectons et traitons les HTMLs provenant de plus de 700 000 sources URL uniques. Grâce à un pipeline d'extraction de contenu, de filtrage et de synthèse, nous construisons un ensemble de données d'environ 900 000 paires question-réponse, dont 40 % sont des paires visuelles question-réponse et le reste des paires textuelles question-réponse. Les modèles affinés sur VisualWebInstruct démontrent des gains de performance significatifs : (1) l'entraînement à partir de Llava-OV-mid montre des gains absolus de 10 à 20 points sur les benchmarks, (2) l'entraînement à partir de MAmmoTH-VL montre un gain absolu de 5 %. Notre meilleur modèle, MAmmoTH-VL2, affiche des performances de pointe dans la classe des 10 milliards de paramètres sur MMMU-Pro-std (40,7 %), MathVerse (42,6 %) et DynaMath (55,7 %). Ces résultats remarquables mettent en évidence l'efficacité de notre ensemble de données pour améliorer les capacités de raisonnement des modèles vision-langage sur des tâches multimodales complexes.

English

Vision-Language Models have made significant progress on many perception-focused tasks, however, their progress on reasoning-focused tasks seem to be limited due to the lack of high-quality and diverse training data. In this work, we aim to address the scarcity issue of reasoning-focused multimodal datasets. We propose VisualWebInstruct - a novel approach that leverages search engine to create a diverse, and high-quality dataset spanning multiple disciplines like math, physics, finance, chemistry, etc. Starting with meticulously selected 30,000 seed images, we employ Google Image search to identify websites containing similar images. We collect and process the HTMLs from over 700K unique URL sources. Through a pipeline of content extraction, filtering and synthesis, we build a dataset of approximately 900K question-answer pairs, with 40% being visual QA pairs and the rest as text QA pairs. Models fine-tuned on VisualWebInstruct demonstrate significant performance gains: (1) training from Llava-OV-mid shows 10-20% absolute point gains across benchmarks, (2) training from MAmmoTH-VL shows 5% absoluate gain. Our best model MAmmoTH-VL2 shows state-of-the-art performance within the 10B parameter class on MMMU-Pro-std (40.7%), MathVerse (42.6%), and DynaMath (55.7%). These remarkable results highlight the effectiveness of our dataset in enhancing VLMs' reasoning capabilities for complex multimodal tasks.

VisualWebInstruct : Mise à l'échelle des données d'instruction multimodales via la recherche web

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

papers.abstract

Support