VisionFoundry : Enseigner la perception visuelle aux VLM avec des images synthétiques

Résumé

Les modèles vision-langage (VLM) peinent encore avec les tâches de perception visuelle telles que la compréhension spatiale et la reconnaissance des points de vue. Un facteur explicatif plausible est que les jeux de données d'images naturelles fournissent une supervision limitée pour les compétences visuelles de bas niveau. Cela soulève une question pratique : une supervision synthétique ciblée, générée à partir d'un simple mot-clé de tâche comme "Ordre de profondeur", peut-elle combler ces lacunes ? Pour investiguer cette question, nous présentons VisionFoundry, un pipeline de génération de données synthétiques conscient de la tâche, qui ne prend que le nom de la tâche en entrée, utilise des grands modèles de langage (LLM) pour générer des questions, des réponses et des prompts texte-image (T2I), synthétise ensuite des images avec des modèles T2I et vérifie la cohérence avec un VLM propriétaire, le tout sans nécessiter d'images de référence ou d'annotation humaine. En utilisant VisionFoundry, nous construisons VisionFoundry-10K, un jeu de données synthétique de question-réponse visuelle (VQA) contenant 10 000 triplets image-question-réponse couvrant 10 tâches. Les modèles entraînés sur VisionFoundry-10K obtiennent des améliorations substantielles sur les benchmarks de perception visuelle : +7% sur MMVP et +10% sur CV-Bench-3D, tout en préservant leurs capacités générales et en affichant un comportement d'échelle favorable à mesure que la quantité de données augmente. Nos résultats suggèrent qu'une supervision ciblée limitée est un contributeur important à ce goulot d'étranglement et que la supervision synthétique constitue une voie prometteuse pour un entraînement plus systématique des VLM.

English

Vision-language models (VLMs) still struggle with visual perception tasks such as spatial understanding and viewpoint recognition. One plausible contributing factor is that natural image datasets provide limited supervision for low-level visual skills. This motivates a practical question: can targeted synthetic supervision, generated from only a task keyword such as Depth Order, address these weaknesses? To investigate this question, we introduce VisionFoundry, a task-aware synthetic data generation pipeline that takes only the task name as input and uses large language models (LLMs) to generate questions, answers, and text-to-image (T2I) prompts, then synthesizes images with T2I models and verifies consistency with a proprietary VLM, requiring no reference images or human annotation. Using VisionFoundry, we construct VisionFoundry-10K, a synthetic visual question answering (VQA) dataset containing 10k image-question-answer triples spanning 10 tasks. Models trained on VisionFoundry-10K achieve substantial improvements on visual perception benchmarks: +7% on MMVP and +10% on CV-Bench-3D, while preserving broader capabilities and showing favorable scaling behavior as data size increases. Our results suggest that limited task-targeted supervision is an important contributor to this bottleneck and that synthetic supervision is a promising path toward more systematic training for VLMs.

VisionFoundry : Enseigner la perception visuelle aux VLM avec des images synthétiques

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

Résumé

Support