VisionFoundry: Ensinando Percepção Visual a VLMs com Imagens Sintéticas

Resumo

Os modelos visão-linguagem (VLMs) continuam com dificuldades em tarefas de percepção visual, como compreensão espacial e reconhecimento de perspetivas. Um fator contribuinte plausível é que os conjuntos de dados de imagens naturais fornecem supervisão limitada para competências visuais de baixo nível. Isto motiva uma questão prática: pode a supervisão sintética direcionada, gerada a partir de apenas uma palavra-chave de tarefa como Ordem de Profundidade, resolver estas limitações? Para investigar esta questão, introduzimos a VisionFoundry, um pipeline de geração de dados sintéticos consciente da tarefa que recebe apenas o nome da tarefa como entrada e usa modelos de linguagem de grande escala (LLMs) para gerar perguntas, respostas e prompts de texto-para-imagem (T2I), sintetiza depois imagens com modelos T2I e verifica a consistência com um VLM proprietário, não necessitando de imagens de referência ou anotação humana. Usando a VisionFoundry, construímos o VisionFoundry-10K, um conjunto de dados sintético de resposta a perguntas visuais (VQA) contendo 10 mil triplos imagem-pergunta-resposta abrangendo 10 tarefas. Modelos treinados no VisionFoundry-10K alcançam melhorias substanciais em benchmarks de perceção visual: +7% no MMVP e +10% no CV-Bench-3D, preservando simultaneamente capacidades mais amplas e exibindo um comportamento de escalabilidade favorável à medida que o volume de dados aumenta. Os nossos resultados sugerem que a supervisão limitada e direcionada à tarefa é um contribuinte importante para este estrangulamento e que a supervisão sintética é um caminho promissor para um treino mais sistemático dos VLMs.

English

Vision-language models (VLMs) still struggle with visual perception tasks such as spatial understanding and viewpoint recognition. One plausible contributing factor is that natural image datasets provide limited supervision for low-level visual skills. This motivates a practical question: can targeted synthetic supervision, generated from only a task keyword such as Depth Order, address these weaknesses? To investigate this question, we introduce VisionFoundry, a task-aware synthetic data generation pipeline that takes only the task name as input and uses large language models (LLMs) to generate questions, answers, and text-to-image (T2I) prompts, then synthesizes images with T2I models and verifies consistency with a proprietary VLM, requiring no reference images or human annotation. Using VisionFoundry, we construct VisionFoundry-10K, a synthetic visual question answering (VQA) dataset containing 10k image-question-answer triples spanning 10 tasks. Models trained on VisionFoundry-10K achieve substantial improvements on visual perception benchmarks: +7% on MMVP and +10% on CV-Bench-3D, while preserving broader capabilities and showing favorable scaling behavior as data size increases. Our results suggest that limited task-targeted supervision is an important contributor to this bottleneck and that synthetic supervision is a promising path toward more systematic training for VLMs.

VisionFoundry: Ensinando Percepção Visual a VLMs com Imagens Sintéticas

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

Resumo

Support