VisionFoundry: Insegnare la percezione visiva ai VLM con immagini sintetiche

Abstract

I modelli visione-linguaggio (VLM) continuano a mostrare difficoltà in compiti di percezione visiva come la comprensione spaziale e il riconoscimento del punto di vista. Un fattore plausibile è che i dataset di immagini naturali forniscono una supervisione limitata per le abilità visive di basso livello. Ciò solleva una questione pratica: una supervisione sintetica mirata, generata a partire da una semplice parola chiave come "Ordine di Profondità", può affrontare queste carenze? Per indagare questa ipotesi, introduciamo VisionFoundry, una pipeline di generazione di dati sintetici "task-aware" che richiede in input solo il nome del compito, utilizza modelli linguistici di grandi dimensioni (LLM) per generare domande, risposte e prompt testo-immagine (T2I), sintetizza quindi le immagini con modelli T2I e verifica la coerenza con un VLM proprietario, il tutto senza necessitare di immagini di riferimento o annotazioni umane. Utilizzando VisionFoundry, abbiamo costruito VisionFoundry-10K, un dataset sintetico di visual question answering (VQA) contenente 10.000 triple immagine-domanda-risposta che coprono 10 compiti diversi. I modelli addestrati su VisionFoundry-10K raggiungono miglioramenti sostanziali sui benchmark di percezione visiva: +7% su MMVP e +10% su CV-Bench-3D, preservando al contempo capacità più ampie e mostrando un comportamento di scaling favorevole all'aumentare della dimensione dei dati. I nostri risultati suggeriscono che una supervisione mirata e limitata al compito sia un importante fattore che contribuisce a questo collo di bottiglia e che la supervisione sintetica rappresenti una strada promettente verso un addestramento più sistematico per i VLM.

English

Vision-language models (VLMs) still struggle with visual perception tasks such as spatial understanding and viewpoint recognition. One plausible contributing factor is that natural image datasets provide limited supervision for low-level visual skills. This motivates a practical question: can targeted synthetic supervision, generated from only a task keyword such as Depth Order, address these weaknesses? To investigate this question, we introduce VisionFoundry, a task-aware synthetic data generation pipeline that takes only the task name as input and uses large language models (LLMs) to generate questions, answers, and text-to-image (T2I) prompts, then synthesizes images with T2I models and verifies consistency with a proprietary VLM, requiring no reference images or human annotation. Using VisionFoundry, we construct VisionFoundry-10K, a synthetic visual question answering (VQA) dataset containing 10k image-question-answer triples spanning 10 tasks. Models trained on VisionFoundry-10K achieve substantial improvements on visual perception benchmarks: +7% on MMVP and +10% on CV-Bench-3D, while preserving broader capabilities and showing favorable scaling behavior as data size increases. Our results suggest that limited task-targeted supervision is an important contributor to this bottleneck and that synthetic supervision is a promising path toward more systematic training for VLMs.

VisionFoundry: Insegnare la percezione visiva ai VLM con immagini sintetiche

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

Abstract

Support