VQ-VA World: 고품질 시각 질문-시각 응답을 위한 접근
VQ-VA World: Towards High-Quality Visual Question-Visual Answering
November 25, 2025
저자: Chenhui Gou, Zilong Chen, Zeyu Wang, Feng Li, Deyao Zhu, Zicheng Duan, Kunchang Li, Chaorui Deng, Hongyi Yuan, Haoqi Fan, Cihang Xie, Jianfei Cai, Hamid Rezatofighi
cs.AI
초록
본 논문은 시각 질문-시각 응답(VQ-VA)을 연구한다. 이는 텍스트가 아닌 이미지를 생성하여 시각 질문에 답변하는 능력으로, 최근 NanoBanana 및 GPT-Image와 같은 독점 시스템에서 등장한 능력이다. 이러한 능력을 오픈소스 모델에도 제공하기 위해, 우리는 대규모 목표 데이터 구축을 위한 에이전트 기반 파이프라인을 중심으로 구축된 데이터 중심 프레임워크인 VQ-VA World를 소개한다. 웹 규모의 배포를 활용한 이 파이프라인은 모델 학습을 위해 약 180만 개의 고품질 인터리브 이미지-텍스트 샘플을 대량으로 수집한다. 평가를 위해 우리는 VQ-VA를 세계 지식, 디자인 지식, 추론 측면에서 체계적으로 평가하는 인간이 직접 선별한 벤치마크인 IntelligentBench를 추가로 공개한다. VQ-VA World 데이터로 학습한 결과 강력한 경험적 성능 향상을 보였다: 이를 통해 LightFusion은 IntelligentBench에서 53.06점을 달성하여 기존 최고 오픈소스 베이스라인(즉, 일반 LightFusion의 7.78점; UniWorld-V1의 1.94점)을 크게 앞섰으며, 선도적인 독점 시스템(예: NanoBanana의 81.67점; GPT-Image의 82.64점)과의 격차를 크게 좁혔다. 모델 가중치, 데이터셋, 파이프라인의 전체 패키지를 공개함으로써 VQ-VA에 대한 향후 연구를 촉진하기를 바란다.
English
This paper studies Visual Question-Visual Answering (VQ-VA): generating an image, rather than text, in response to a visual question -- an ability that has recently emerged in proprietary systems such as NanoBanana and GPT-Image. To also bring this capability to open-source models, we introduce VQ-VA World, a data-centric framework built around an agentic pipeline for large-scale, targeted data construction. Leveraging web-scale deployment, this pipeline crawls a massive amount of ~1.8M high-quality, interleaved image-text samples for model training. For evaluation, we further release IntelligentBench, a human-curated benchmark that systematically assesses VQ-VA along the aspects of world knowledge, design knowledge, and reasoning. Training with VQ-VA World data yields strong empirical gains: it helps LightFusion attain 53.06 on IntelligentBench, substantially surpassing the best prior open-source baselines (i.e., 7.78 from vanilla LightFusion; 1.94 from UniWorld-V1), and significantly narrowing the gap toward leading proprietary systems (e.g., 81.67 from NanoBanana; 82.64 from GPT-Image). By releasing the full suite of model weights, datasets, and pipelines, we hope to stimulate future research on VQ-VA.