VisualWebInstruct: Scalabilità dei Dati di Istruzione Multimodali tramite Ricerca Web
VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search
March 13, 2025
Autori: Yiming Jia, Jiachen Li, Xiang Yue, Bo Li, Ping Nie, Kai Zou, Wenhu Chen
cs.AI
Abstract
I modelli visione-linguaggio hanno compiuto progressi significativi in molti compiti focalizzati sulla percezione, tuttavia i loro progressi nei compiti orientati al ragionamento sembrano essere limitati a causa della mancanza di dati di addestramento di alta qualità e diversificati. In questo lavoro, ci proponiamo di affrontare il problema della scarsità di dataset multimodali focalizzati sul ragionamento. Proponiamo VisualWebInstruct, un approccio innovativo che sfrutta i motori di ricerca per creare un dataset diversificato e di alta qualità che abbraccia molteplici discipline come matematica, fisica, finanza, chimica, ecc. Partendo da 30.000 immagini selezionate con cura, utilizziamo la ricerca immagini di Google per identificare siti web contenenti immagini simili. Raccogliamo e processiamo gli HTML da oltre 700.000 fonti URL uniche. Attraverso una pipeline di estrazione del contenuto, filtraggio e sintesi, costruiamo un dataset di circa 900.000 coppie domanda-risposta, con il 40% costituito da coppie di domande-risposte visive e il resto da coppie di domande-risposte testuali. I modelli addestrati su VisualWebInstruct dimostrano miglioramenti significativi delle prestazioni: (1) l'addestramento a partire da Llava-OV-mid mostra guadagni assoluti del 10-20% su vari benchmark, (2) l'addestramento a partire da MAmmoTH-VL mostra un guadagno assoluto del 5%. Il nostro miglior modello, MAmmoTH-VL2, mostra prestazioni all'avanguardia nella classe dei 10 miliardi di parametri su MMMU-Pro-std (40,7%), MathVerse (42,6%) e DynaMath (55,7%). Questi risultati notevoli evidenziano l'efficacia del nostro dataset nel potenziare le capacità di ragionamento dei modelli visione-linguaggio per compiti multimodali complessi.
English
Vision-Language Models have made significant progress on many
perception-focused tasks, however, their progress on reasoning-focused tasks
seem to be limited due to the lack of high-quality and diverse training data.
In this work, we aim to address the scarcity issue of reasoning-focused
multimodal datasets. We propose VisualWebInstruct - a novel approach that
leverages search engine to create a diverse, and high-quality dataset spanning
multiple disciplines like math, physics, finance, chemistry, etc. Starting with
meticulously selected 30,000 seed images, we employ Google Image search to
identify websites containing similar images. We collect and process the HTMLs
from over 700K unique URL sources. Through a pipeline of content extraction,
filtering and synthesis, we build a dataset of approximately 900K
question-answer pairs, with 40% being visual QA pairs and the rest as text QA
pairs. Models fine-tuned on VisualWebInstruct demonstrate significant
performance gains: (1) training from Llava-OV-mid shows 10-20% absolute point
gains across benchmarks, (2) training from MAmmoTH-VL shows 5% absoluate gain.
Our best model MAmmoTH-VL2 shows state-of-the-art performance within the 10B
parameter class on MMMU-Pro-std (40.7%), MathVerse (42.6%), and DynaMath
(55.7%). These remarkable results highlight the effectiveness of our dataset in
enhancing VLMs' reasoning capabilities for complex multimodal tasks.