ChatPaper.aiChatPaper

VisualWebInstruct: Масштабирование мультимодальных обучающих данных через веб-поиск

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

March 13, 2025
Авторы: Yiming Jia, Jiachen Li, Xiang Yue, Bo Li, Ping Nie, Kai Zou, Wenhu Chen
cs.AI

Аннотация

Модели, объединяющие зрение и язык, достигли значительного прогресса в решении многих задач, ориентированных на восприятие, однако их успехи в задачах, требующих рассуждений, остаются ограниченными из-за недостатка качественных и разнообразных обучающих данных. В данной работе мы стремимся решить проблему дефицита мультимодальных наборов данных, ориентированных на рассуждения. Мы предлагаем VisualWebInstruct — новый подход, который использует поисковую систему для создания разнообразного и качественного набора данных, охватывающего такие дисциплины, как математика, физика, финансы, химия и другие. Начиная с тщательно отобранных 30 000 исходных изображений, мы применяем поиск Google Images для идентификации веб-сайтов, содержащих похожие изображения. Мы собираем и обрабатываем HTML-коды с более чем 700 тысяч уникальных URL-источников. С помощью конвейера извлечения, фильтрации и синтеза контента мы создаем набор данных, состоящий из примерно 900 тысяч пар вопрос-ответ, где 40% составляют визуальные пары вопрос-ответ, а остальные — текстовые. Модели, дообученные на VisualWebInstruct, демонстрируют значительное улучшение производительности: (1) обучение на основе Llava-OV-mid показывает рост на 10–20 процентных пунктов на различных бенчмарках, (2) обучение на основе MAmmoTH-VL показывает рост на 5 процентных пунктов. Наша лучшая модель MAmmoTH-VL2 демонстрирует наивысшую производительность в классе моделей с 10 миллиардами параметров на тестах MMMU-Pro-std (40,7%), MathVerse (42,6%) и DynaMath (55,7%). Эти впечатляющие результаты подчеркивают эффективность нашего набора данных в улучшении способностей моделей, объединяющих зрение и язык, к рассуждениям при решении сложных мультимодальных задач.
English
Vision-Language Models have made significant progress on many perception-focused tasks, however, their progress on reasoning-focused tasks seem to be limited due to the lack of high-quality and diverse training data. In this work, we aim to address the scarcity issue of reasoning-focused multimodal datasets. We propose VisualWebInstruct - a novel approach that leverages search engine to create a diverse, and high-quality dataset spanning multiple disciplines like math, physics, finance, chemistry, etc. Starting with meticulously selected 30,000 seed images, we employ Google Image search to identify websites containing similar images. We collect and process the HTMLs from over 700K unique URL sources. Through a pipeline of content extraction, filtering and synthesis, we build a dataset of approximately 900K question-answer pairs, with 40% being visual QA pairs and the rest as text QA pairs. Models fine-tuned on VisualWebInstruct demonstrate significant performance gains: (1) training from Llava-OV-mid shows 10-20% absolute point gains across benchmarks, (2) training from MAmmoTH-VL shows 5% absoluate gain. Our best model MAmmoTH-VL2 shows state-of-the-art performance within the 10B parameter class on MMMU-Pro-std (40.7%), MathVerse (42.6%), and DynaMath (55.7%). These remarkable results highlight the effectiveness of our dataset in enhancing VLMs' reasoning capabilities for complex multimodal tasks.

Summary

AI-Generated Summary

PDF232March 14, 2025