VisionFoundry: Vermittlung visueller Wahrnehmung für VLMs mittels synthetischer Bilder

Zusammenfassung

Vision-Language-Modelle (VLMs) haben nach wie vor Schwierigkeiten mit visuellen Wahrnehmungsaufgaben wie räumlichem Verständnis und Blickwinkelerkennung. Ein plausibler Einflussfaktor ist, dass natürliche Bilddatensätze nur begrenzte Supervision für low-level visuelle Fähigkeiten bieten. Dies wirft eine praktische Frage auf: Kann gezielte synthetische Supervision, die lediglich aus einem Aufgaben-Schlüsselwort wie "Tiefenordnung" generiert wird, diese Schwächen beheben? Um dieser Frage nachzugehen, stellen wir VisionFoundry vor, eine aufgabenbewusste Pipeline zur Erzeugung synthetischer Daten, die nur den Aufgabennamen als Eingabe verwendet und große Sprachmodelle (LLMs) zur Generierung von Fragen, Antworten und Text-zu-Bild (T2I) Prompts nutzt. Anschließend synthetisiert sie Bilder mit T2I-Modellen und verifiziert die Konsistenz mit einem proprietären VLM – ganz ohne Referenzbilder oder menschliche Annotation. Mithilfe von VisionFoundry erstellen wir VisionFoundry-10K, einen synthetischen Visual-Question-Answering (VQA)-Datensatz, der 10.000 Bild-Frage-Antwort-Tripel über 10 Aufgaben hinweg enthält. Auf VisionFoundry-10K trainierte Modelle erzielen substantiale Verbesserungen auf Benchmarks für visuelle Wahrnehmung: +7 % auf MMVP und +10 % auf CV-Bench-3D, bei gleichzeitiger Bewahrung breiterer Fähigkeiten und günstigem Skalierungsverhalten mit zunehmender Datenmenge. Unsere Ergebnisse deuten darauf hin, dass begrenzte, aufgabenspezifische Supervision ein wichtiger Faktor für diesen Engpass ist und dass synthetische Supervision ein vielversprechender Weg hin zu einer systematischeren Ausbildung von VLMs darstellt.

English

Vision-language models (VLMs) still struggle with visual perception tasks such as spatial understanding and viewpoint recognition. One plausible contributing factor is that natural image datasets provide limited supervision for low-level visual skills. This motivates a practical question: can targeted synthetic supervision, generated from only a task keyword such as Depth Order, address these weaknesses? To investigate this question, we introduce VisionFoundry, a task-aware synthetic data generation pipeline that takes only the task name as input and uses large language models (LLMs) to generate questions, answers, and text-to-image (T2I) prompts, then synthesizes images with T2I models and verifies consistency with a proprietary VLM, requiring no reference images or human annotation. Using VisionFoundry, we construct VisionFoundry-10K, a synthetic visual question answering (VQA) dataset containing 10k image-question-answer triples spanning 10 tasks. Models trained on VisionFoundry-10K achieve substantial improvements on visual perception benchmarks: +7% on MMVP and +10% on CV-Bench-3D, while preserving broader capabilities and showing favorable scaling behavior as data size increases. Our results suggest that limited task-targeted supervision is an important contributor to this bottleneck and that synthetic supervision is a promising path toward more systematic training for VLMs.

VisionFoundry: Vermittlung visueller Wahrnehmung für VLMs mittels synthetischer Bilder

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

Zusammenfassung

Support