VisionFoundry: 합성 이미지를 활용한 VLM 시각 인지 교육
VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images
April 10, 2026
저자: Guanyu Zhou, Yida Yin, Wenhao Chai, Shengbang Tong, Xingyu Fu, Zhuang Liu
cs.AI
초록
비전-언어 모델(VLM)은 공간 이해 및 시점 인식과 같은 시각 인식 작업에서 여전히 어려움을 겪고 있습니다. 이러한 약점의 주요 원인 중 하나는 자연 이미지 데이터셋이 저수준 시각 능력에 대한 제한된 감독(supervision)을 제공한다는 점입니다. 이는 '깊이 순서(Depth Order)'와 같은 작업 키워드만으로 생성된 표적 합성 감독이 이러한 약점을 해결할 수 있을지라는 실용적인 질문으로 이어집니다. 이 문제를 탐구하기 위해 우리는 VisionFoundry를 소개합니다. 이는 작업 이름만을 입력으로 받아 대규모 언어 모델(LLM)을 활용하여 질문, 답변, 텍스트-이미지(T2I) 프롬프트를 생성한 후 T2I 모델로 이미지를 합성하고, 사전 학습된 VLM을 이용해 일관성을 검증하는 작업 인식(task-aware) 합성 데이터 생성 파이프라인으로, 참조 이미지나 인간 주석이 필요하지 않습니다. VisionFoundry를 사용하여 우리는 10개 작업에 걸친 10,000개의 이미지-질문-답변 삼중항을 포함하는 합성 시각 질의응답(VQA) 데이터셋인 VisionFoundry-10K를 구축했습니다. VisionFoundry-10K로 학습된 모델은 시각 인식 벤치마크에서 MMVP 기준 +7%, CV-Bench-3D 기준 +10%의 상당한 성능 향상을 달성했으며, 더 넓은 능력을 유지하고 데이터 크기가 증가함에 따라 유리한 스케일링 행동을 보였습니다. 우리의 결과는 제한된 작업 표적 감독이 이러한 병목 현상의 중요한 요인이며, 합성 감독이 VLM의 더 체계적인 학습을 위한 유망한 방향임을 시사합니다.
English
Vision-language models (VLMs) still struggle with visual perception tasks such as spatial understanding and viewpoint recognition. One plausible contributing factor is that natural image datasets provide limited supervision for low-level visual skills. This motivates a practical question: can targeted synthetic supervision, generated from only a task keyword such as Depth Order, address these weaknesses? To investigate this question, we introduce VisionFoundry, a task-aware synthetic data generation pipeline that takes only the task name as input and uses large language models (LLMs) to generate questions, answers, and text-to-image (T2I) prompts, then synthesizes images with T2I models and verifies consistency with a proprietary VLM, requiring no reference images or human annotation. Using VisionFoundry, we construct VisionFoundry-10K, a synthetic visual question answering (VQA) dataset containing 10k image-question-answer triples spanning 10 tasks. Models trained on VisionFoundry-10K achieve substantial improvements on visual perception benchmarks: +7% on MMVP and +10% on CV-Bench-3D, while preserving broader capabilities and showing favorable scaling behavior as data size increases. Our results suggest that limited task-targeted supervision is an important contributor to this bottleneck and that synthetic supervision is a promising path toward more systematic training for VLMs.