ChatPaper.aiChatPaper

VQ-VA World: Auf dem Weg zu hochwertigem visuellem Fragen und visuellen Antworten

VQ-VA World: Towards High-Quality Visual Question-Visual Answering

November 25, 2025
papers.authors: Chenhui Gou, Zilong Chen, Zeyu Wang, Feng Li, Deyao Zhu, Zicheng Duan, Kunchang Li, Chaorui Deng, Hongyi Yuan, Haoqi Fan, Cihang Xie, Jianfei Cai, Hamid Rezatofighi
cs.AI

papers.abstract

Diese Arbeit untersucht Visual Question-Visual Answering (VQ-VA): die Erzeugung eines Bildes anstelle von Text als Antwort auf eine visuelle Frage – eine Fähigkeit, die kürzlich in proprietären Systemen wie NanoBanana und GPT-Image aufgetaucht ist. Um diese Fähigkeit auch für Open-Source-Modelle zugänglich zu machen, stellen wir VQ-VA World vor, ein datenzentriertes Framework, das auf einer agentenbasierten Pipeline für die groß angelegte, gezielte Datenerstellung aufbaut. Durch den Einsatz von Web-Scale-Deployment crawlt diese Pipeline eine massive Menge von ~1,8 Millionen hochwertigen, verschachtelten Bild-Text-Beispielen für das Modelltraining. Für die Evaluation veröffentlichen wir zudem IntelligentBench, einen von Menschen kuratierten Benchmark, der VQ-VA systematisch in den Bereichen Weltwissen, Designwissen und logisches Denken bewertet. Das Training mit VQ-VA World-Daten führt zu starken empirischen Verbesserungen: Es ermöglicht LightFusion, einen Wert von 53,06 auf IntelligentBench zu erreichen, was die besten bisherigen Open-Source-Baselines (d.h. 7,78 vom Standard-LightFusion; 1,94 von UniWorld-V1) erheblich übertrifft und die Lücke zu führenden proprietären Systemen (z.B. 81,67 von NanoBanana; 82,64 von GPT-Image) deutlich verringert. Durch die Veröffentlichung des vollständigen Satzes von Modellgewichten, Datensätzen und Pipelines hoffen wir, zukünftige Forschung zu VQ-VA anzuregen.
English
This paper studies Visual Question-Visual Answering (VQ-VA): generating an image, rather than text, in response to a visual question -- an ability that has recently emerged in proprietary systems such as NanoBanana and GPT-Image. To also bring this capability to open-source models, we introduce VQ-VA World, a data-centric framework built around an agentic pipeline for large-scale, targeted data construction. Leveraging web-scale deployment, this pipeline crawls a massive amount of ~1.8M high-quality, interleaved image-text samples for model training. For evaluation, we further release IntelligentBench, a human-curated benchmark that systematically assesses VQ-VA along the aspects of world knowledge, design knowledge, and reasoning. Training with VQ-VA World data yields strong empirical gains: it helps LightFusion attain 53.06 on IntelligentBench, substantially surpassing the best prior open-source baselines (i.e., 7.78 from vanilla LightFusion; 1.94 from UniWorld-V1), and significantly narrowing the gap toward leading proprietary systems (e.g., 81.67 from NanoBanana; 82.64 from GPT-Image). By releasing the full suite of model weights, datasets, and pipelines, we hope to stimulate future research on VQ-VA.
PDF72December 1, 2025