VQ-VA Wereld: Op Weg naar Hoogwaardige Visuele Vraag-Visueel Antwoord
VQ-VA World: Towards High-Quality Visual Question-Visual Answering
November 25, 2025
Auteurs: Chenhui Gou, Zilong Chen, Zeyu Wang, Feng Li, Deyao Zhu, Zicheng Duan, Kunchang Li, Chaorui Deng, Hongyi Yuan, Haoqi Fan, Cihang Xie, Jianfei Cai, Hamid Rezatofighi
cs.AI
Samenvatting
Dit artikel bestudeert Visuele Vraag-Visueel Antwoorden (VQ-VA): het genereren van een afbeelding, in plaats van tekst, als antwoord op een visuele vraag – een vaardigheid die recentelijk is opgedoken in propriëtaire systemen zoals NanoBanana en GPT-Image. Om deze capaciteit ook naar open-source modellen te brengen, introduceren we VQ-VA World, een data-centrisch raamwerk gebouwd rond een agent-gebaseerde pijplijn voor grootschalige, gerichte dataconstructie. Door inzet op web-schaal crawlt deze pijplijn een enorme hoeveelheid van ongeveer 1,8 miljoen hoogwaardige, vervlochten afbeelding-tekst samples voor modeltraining. Voor evaluatie lanceren we verder IntelligentBench, een door mensen samengestelde benchmark die VQ-VA systematisch beoordeelt langs de aspecten wereldkennis, ontwerpkennis en redenering. Trainen met VQ-VA World data levert sterke empirische verbeteringen op: het helpt LightFusion een score van 53.06 te behalen op IntelligentBench, wat de beste eerdere open-source baselines aanzienlijk overstijgt (namelijk 7.78 van standaard LightFusion; 1.94 van UniWorld-V1), en de kloof naar toonaangevende propriëtaire systemen significant verkleint (bijvoorbeeld 81.67 van NanoBanana; 82.64 van GPT-Image). Door de volledige suite van modelgewichten, datasets en pijplijnen vrij te geven, hopen we toekomstig onderzoek naar VQ-VA te stimuleren.
English
This paper studies Visual Question-Visual Answering (VQ-VA): generating an image, rather than text, in response to a visual question -- an ability that has recently emerged in proprietary systems such as NanoBanana and GPT-Image. To also bring this capability to open-source models, we introduce VQ-VA World, a data-centric framework built around an agentic pipeline for large-scale, targeted data construction. Leveraging web-scale deployment, this pipeline crawls a massive amount of ~1.8M high-quality, interleaved image-text samples for model training. For evaluation, we further release IntelligentBench, a human-curated benchmark that systematically assesses VQ-VA along the aspects of world knowledge, design knowledge, and reasoning. Training with VQ-VA World data yields strong empirical gains: it helps LightFusion attain 53.06 on IntelligentBench, substantially surpassing the best prior open-source baselines (i.e., 7.78 from vanilla LightFusion; 1.94 from UniWorld-V1), and significantly narrowing the gap toward leading proprietary systems (e.g., 81.67 from NanoBanana; 82.64 from GPT-Image). By releasing the full suite of model weights, datasets, and pipelines, we hope to stimulate future research on VQ-VA.