VisionFoundry: Visuele Waarneming Aanleren aan VLMs met Synthetische Beelden

Samenvatting

Vision-language models (VLMs) hebben nog steeds moeite met visuele perceptietaken zoals ruimtelijk inzicht en herkenning van gezichtspunten. Een plausibele oorzaak is dat natuurlijke beelddatasets beperkte supervisie bieden voor laagniveau visuele vaardigheden. Dit roept de praktische vraag op: kan gerichte synthetische supervisie, gegenereerd met alleen een taakzoekwoord zoals 'Depth Order', deze zwakke punten verhelpen? Om deze vraag te onderzoeken, introduceren we VisionFoundry, een taakbewust synthetisch datageneratiepipeline die alleen de taaknaam als invoer neemt en grote taalmodellen (LLMs) gebruikt om vragen, antwoorden en tekst-naar-beeld (T2I) prompts te genereren, vervolgens beelden synthetiseert met T2I-modellen en de consistentie verifieert met een propriëtair VLM, zonder referentiebeelden of menselijke annotatie. Met VisionFoundry construeren we VisionFoundry-10K, een synthetische visuele vraag-antwoord (VQA) dataset met 10k beeld-vraag-antwoord triples verdeeld over 10 taken. Modellen getraind op VisionFoundry-10K behalen aanzienlijke verbeteringen op visuele perceptiebenchmarks: +7% op MMVP en +10% op CV-Bench-3D, terwijl ze bredere capaciteiten behouden en gunstige schaalbaarheid vertonen naarmate de dataschaal toeneemt. Onze resultaten suggereren dat beperkte taakgerichte supervisie een belangrijke bijdrage levert aan dit knelpunt en dat synthetische supervisie een veelbelovende weg is naar meer systematische training voor VLMs.

English

Vision-language models (VLMs) still struggle with visual perception tasks such as spatial understanding and viewpoint recognition. One plausible contributing factor is that natural image datasets provide limited supervision for low-level visual skills. This motivates a practical question: can targeted synthetic supervision, generated from only a task keyword such as Depth Order, address these weaknesses? To investigate this question, we introduce VisionFoundry, a task-aware synthetic data generation pipeline that takes only the task name as input and uses large language models (LLMs) to generate questions, answers, and text-to-image (T2I) prompts, then synthesizes images with T2I models and verifies consistency with a proprietary VLM, requiring no reference images or human annotation. Using VisionFoundry, we construct VisionFoundry-10K, a synthetic visual question answering (VQA) dataset containing 10k image-question-answer triples spanning 10 tasks. Models trained on VisionFoundry-10K achieve substantial improvements on visual perception benchmarks: +7% on MMVP and +10% on CV-Bench-3D, while preserving broader capabilities and showing favorable scaling behavior as data size increases. Our results suggest that limited task-targeted supervision is an important contributor to this bottleneck and that synthetic supervision is a promising path toward more systematic training for VLMs.

VisionFoundry: Visuele Waarneming Aanleren aan VLMs met Synthetische Beelden

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

Samenvatting

Support