VisionFoundry: Enseñando percepción visual a los VLM con imágenes sintéticas

Resumen

Los modelos deícono de lenguaje visual (VLMs) aún presentan dificultades en tareas de percepción visual como la comprensión espacial y el reconocimiento de perspectivas. Un factor contribuyente plausible es que los conjuntos de datos de imágenes naturales proporcionan una supervisión limitada para habilidades visuales de bajo nivel. Esto plantea una pregunta práctica: ¿puede la supervisión sintética dirigida, generada únicamente a partir de una palabra clave de tarea como "Orden de Profundidad", abordar estas debilidades? Para investigar esta cuestión, presentamos VisionFoundry, una pipeline de generación de datos sintéticos consciente de la tarea que toma únicamente el nombre de la tarea como entrada y utiliza modelos de lenguaje grande (LLMs) para generar preguntas, respuestas y prompts de texto a imagen (T2I), luego sintetiza imágenes con modelos T2I y verifica la consistencia con un VLM propietario, sin requerir imágenes de referencia ni anotación humana. Utilizando VisionFoundry, construimos VisionFoundry-10K, un conjunto de datos sintético de respuesta a preguntas visuales (VQA) que contiene 10.000 tríadas imagen-pregunta-respuesta abarcando 10 tareas. Los modelos entrenados con VisionFoundry-10K logran mejoras sustanciales en benchmarks de percepción visual: +7% en MMVP y +10% en CV-Bench-3D, mientras preservan capacidades más amplias y muestran un comportamiento de escalado favorable a medida que aumenta el volumen de datos. Nuestros resultados sugieren que la supervisión limitada dirigida a tareas específicas es un contribuyente importante a este cuello de botella y que la supervisión sintética es un camino prometedor hacia un entrenamiento más sistemático para los VLMs.

English

Vision-language models (VLMs) still struggle with visual perception tasks such as spatial understanding and viewpoint recognition. One plausible contributing factor is that natural image datasets provide limited supervision for low-level visual skills. This motivates a practical question: can targeted synthetic supervision, generated from only a task keyword such as Depth Order, address these weaknesses? To investigate this question, we introduce VisionFoundry, a task-aware synthetic data generation pipeline that takes only the task name as input and uses large language models (LLMs) to generate questions, answers, and text-to-image (T2I) prompts, then synthesizes images with T2I models and verifies consistency with a proprietary VLM, requiring no reference images or human annotation. Using VisionFoundry, we construct VisionFoundry-10K, a synthetic visual question answering (VQA) dataset containing 10k image-question-answer triples spanning 10 tasks. Models trained on VisionFoundry-10K achieve substantial improvements on visual perception benchmarks: +7% on MMVP and +10% on CV-Bench-3D, while preserving broader capabilities and showing favorable scaling behavior as data size increases. Our results suggest that limited task-targeted supervision is an important contributor to this bottleneck and that synthetic supervision is a promising path toward more systematic training for VLMs.

VisionFoundry: Enseñando percepción visual a los VLM con imágenes sintéticas

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

Resumen

Support