VisionFoundry: Обучение моделей визуального языка восприятию с использованием синтетических изображений

Аннотация

Модели «визуальный вход-текстовый выход» (VLMs) по-прежнему испытывают трудности с задачами визуального восприятия, такими как пространственное понимание и распознавание точки обзора. Один из вероятных способствующих факторов заключается в том, что наборы данных с естественными изображениями обеспечивают ограниченный контроль за навыками низкоуровневого зрения. Это порождает практический вопрос: может ли целевой синтетический контроль, сгенерированный только по ключевому слову задачи (например, «Глубинное упорядочивание»), устранить эти слабости? Чтобы исследовать этот вопрос, мы представляем VisionFoundry — конвейер генерации синтетических данных, осведомленный о задаче, который принимает на вход только название задачи, использует большие языковые модели (LLMs) для генерации вопросов, ответов и промптов для текст-в-изображение (T2I) моделей, затем синтезирует изображения с помощью T2I-моделей и проверяет согласованность с помощью проприетарной VLM, не требуя эталонных изображений или человеческой разметки. С помощью VisionFoundry мы создали VisionFoundry-10K — синтетический набор данных для визуального вопроса-ответа (VQA), содержащий 10 тысяч троек «изображение-вопрос-ответ» для 10 задач. Модели, обученные на VisionFoundry-10K, демонстрируют существенное улучшение на бенчмарках визуального восприятия: +7% на MMVP и +10% на CV-Bench-3D, сохраняя при этом широкие возможности и показывая благоприятное поведение масштабирования с ростом объема данных. Наши результаты позволяют предположить, что ограниченный целевой контроль за конкретной задачей является важным фактором этого узкого места, а синтетический контроль — перспективный путь к более систематическому обучению VLMs.

English

Vision-language models (VLMs) still struggle with visual perception tasks such as spatial understanding and viewpoint recognition. One plausible contributing factor is that natural image datasets provide limited supervision for low-level visual skills. This motivates a practical question: can targeted synthetic supervision, generated from only a task keyword such as Depth Order, address these weaknesses? To investigate this question, we introduce VisionFoundry, a task-aware synthetic data generation pipeline that takes only the task name as input and uses large language models (LLMs) to generate questions, answers, and text-to-image (T2I) prompts, then synthesizes images with T2I models and verifies consistency with a proprietary VLM, requiring no reference images or human annotation. Using VisionFoundry, we construct VisionFoundry-10K, a synthetic visual question answering (VQA) dataset containing 10k image-question-answer triples spanning 10 tasks. Models trained on VisionFoundry-10K achieve substantial improvements on visual perception benchmarks: +7% on MMVP and +10% on CV-Bench-3D, while preserving broader capabilities and showing favorable scaling behavior as data size increases. Our results suggest that limited task-targeted supervision is an important contributor to this bottleneck and that synthetic supervision is a promising path toward more systematic training for VLMs.

VisionFoundry: Обучение моделей визуального языка восприятию с использованием синтетических изображений

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

Аннотация

Support