VisualWebInstruct: Scalabilità dei Dati di Istruzione Multimodali tramite Ricerca Web

Abstract

I modelli visione-linguaggio hanno compiuto progressi significativi in molti compiti focalizzati sulla percezione, tuttavia i loro progressi nei compiti orientati al ragionamento sembrano essere limitati a causa della mancanza di dati di addestramento di alta qualità e diversificati. In questo lavoro, ci proponiamo di affrontare il problema della scarsità di dataset multimodali focalizzati sul ragionamento. Proponiamo VisualWebInstruct, un approccio innovativo che sfrutta i motori di ricerca per creare un dataset diversificato e di alta qualità che abbraccia molteplici discipline come matematica, fisica, finanza, chimica, ecc. Partendo da 30.000 immagini selezionate con cura, utilizziamo la ricerca immagini di Google per identificare siti web contenenti immagini simili. Raccogliamo e processiamo gli HTML da oltre 700.000 fonti URL uniche. Attraverso una pipeline di estrazione del contenuto, filtraggio e sintesi, costruiamo un dataset di circa 900.000 coppie domanda-risposta, con il 40% costituito da coppie di domande-risposte visive e il resto da coppie di domande-risposte testuali. I modelli addestrati su VisualWebInstruct dimostrano miglioramenti significativi delle prestazioni: (1) l'addestramento a partire da Llava-OV-mid mostra guadagni assoluti del 10-20% su vari benchmark, (2) l'addestramento a partire da MAmmoTH-VL mostra un guadagno assoluto del 5%. Il nostro miglior modello, MAmmoTH-VL2, mostra prestazioni all'avanguardia nella classe dei 10 miliardi di parametri su MMMU-Pro-std (40,7%), MathVerse (42,6%) e DynaMath (55,7%). Questi risultati notevoli evidenziano l'efficacia del nostro dataset nel potenziare le capacità di ragionamento dei modelli visione-linguaggio per compiti multimodali complessi.

English

Vision-Language Models have made significant progress on many perception-focused tasks, however, their progress on reasoning-focused tasks seem to be limited due to the lack of high-quality and diverse training data. In this work, we aim to address the scarcity issue of reasoning-focused multimodal datasets. We propose VisualWebInstruct - a novel approach that leverages search engine to create a diverse, and high-quality dataset spanning multiple disciplines like math, physics, finance, chemistry, etc. Starting with meticulously selected 30,000 seed images, we employ Google Image search to identify websites containing similar images. We collect and process the HTMLs from over 700K unique URL sources. Through a pipeline of content extraction, filtering and synthesis, we build a dataset of approximately 900K question-answer pairs, with 40% being visual QA pairs and the rest as text QA pairs. Models fine-tuned on VisualWebInstruct demonstrate significant performance gains: (1) training from Llava-OV-mid shows 10-20% absolute point gains across benchmarks, (2) training from MAmmoTH-VL shows 5% absoluate gain. Our best model MAmmoTH-VL2 shows state-of-the-art performance within the 10B parameter class on MMMU-Pro-std (40.7%), MathVerse (42.6%), and DynaMath (55.7%). These remarkable results highlight the effectiveness of our dataset in enhancing VLMs' reasoning capabilities for complex multimodal tasks.

VisualWebInstruct: Scalabilità dei Dati di Istruzione Multimodali tramite Ricerca Web

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

Abstract

Support