VisualWebInstruct: Escalando Datos de Instrucción Multimodal a través de Búsquedas Web
VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search
March 13, 2025
Autores: Yiming Jia, Jiachen Li, Xiang Yue, Bo Li, Ping Nie, Kai Zou, Wenhu Chen
cs.AI
Resumen
Los modelos de visión y lenguaje han logrado avances significativos en muchas tareas centradas en la percepción; sin embargo, su progreso en tareas enfocadas en el razonamiento parece estar limitado debido a la falta de datos de entrenamiento diversos y de alta calidad. En este trabajo, buscamos abordar la escasez de conjuntos de datos multimodales centrados en el razonamiento. Proponemos VisualWebInstruct, un enfoque novedoso que aprovecha los motores de búsqueda para crear un conjunto de datos diverso y de alta calidad que abarca múltiples disciplinas como matemáticas, física, finanzas, química, etc. Comenzando con 30,000 imágenes semilla cuidadosamente seleccionadas, utilizamos la búsqueda de imágenes de Google para identificar sitios web que contienen imágenes similares. Recopilamos y procesamos los HTMLs de más de 700K fuentes de URL únicas. A través de una canalización de extracción de contenido, filtrado y síntesis, construimos un conjunto de datos de aproximadamente 900K pares de preguntas y respuestas, donde el 40% son pares de preguntas y respuestas visuales y el resto son pares de preguntas y respuestas de texto. Los modelos ajustados en VisualWebInstruct demuestran ganancias significativas en el rendimiento: (1) el entrenamiento a partir de Llava-OV-mid muestra mejoras de 10-20 puntos porcentuales absolutos en varios puntos de referencia, (2) el entrenamiento a partir de MAmmoTH-VL muestra una mejora absoluta del 5%. Nuestro mejor modelo, MAmmoTH-VL2, muestra un rendimiento de vanguardia dentro de la clase de 10B parámetros en MMMU-Pro-std (40.7%), MathVerse (42.6%) y DynaMath (55.7%). Estos resultados notables resaltan la efectividad de nuestro conjunto de datos para mejorar las capacidades de razonamiento de los modelos de visión y lenguaje en tareas multimodales complejas.
English
Vision-Language Models have made significant progress on many
perception-focused tasks, however, their progress on reasoning-focused tasks
seem to be limited due to the lack of high-quality and diverse training data.
In this work, we aim to address the scarcity issue of reasoning-focused
multimodal datasets. We propose VisualWebInstruct - a novel approach that
leverages search engine to create a diverse, and high-quality dataset spanning
multiple disciplines like math, physics, finance, chemistry, etc. Starting with
meticulously selected 30,000 seed images, we employ Google Image search to
identify websites containing similar images. We collect and process the HTMLs
from over 700K unique URL sources. Through a pipeline of content extraction,
filtering and synthesis, we build a dataset of approximately 900K
question-answer pairs, with 40% being visual QA pairs and the rest as text QA
pairs. Models fine-tuned on VisualWebInstruct demonstrate significant
performance gains: (1) training from Llava-OV-mid shows 10-20% absolute point
gains across benchmarks, (2) training from MAmmoTH-VL shows 5% absoluate gain.
Our best model MAmmoTH-VL2 shows state-of-the-art performance within the 10B
parameter class on MMMU-Pro-std (40.7%), MathVerse (42.6%), and DynaMath
(55.7%). These remarkable results highlight the effectiveness of our dataset in
enhancing VLMs' reasoning capabilities for complex multimodal tasks.Summary
AI-Generated Summary