VQ-VAワールド:高品質な視覚質問-視覚応答を目指して
VQ-VA World: Towards High-Quality Visual Question-Visual Answering
November 25, 2025
著者: Chenhui Gou, Zilong Chen, Zeyu Wang, Feng Li, Deyao Zhu, Zicheng Duan, Kunchang Li, Chaorui Deng, Hongyi Yuan, Haoqi Fan, Cihang Xie, Jianfei Cai, Hamid Rezatofighi
cs.AI
要旨
本論文は、Visual Question-Visual Answering (VQ-VA) を研究する。これは、視覚的質問に対してテキストではなく画像を生成する能力であり、NanoBananaやGPT-Imageといった専有システムにおいて最近登場したものである。この能力をオープンソースモデルにももたらすため、我々はVQ-VA Worldを提案する。これは、大規模かつ対象を絞ったデータ構築のためのエージェント的パイプラインを中核とした、データ中心のフレームワークである。このパイプラインは、ウェブ規模での展開を活用し、モデル訓練用に約180万件の高品質な画像-テキストインターリーブサンプルを大規模に収集する。評価のために、我々はさらにIntelligentBenchを公開する。これは人間が精選したベンチマークであり、世界知識、デザイン知識、推論の観点からVQ-VAを体系的に評価する。VQ-VA Worldデータを用いた訓練は強力な経験的向上をもたらす。それはLightFusionにIntelligentBenchで53.06を達成させ、従来の最高のオープンソースベースライン(すなわち、素のLightFusionの7.78、UniWorld-V1の1.94)を大幅に上回り、主要な専有システム(例えば、NanoBananaの81.67、GPT-Imageの82.64)との差を大きく縮める。モデル重み、データセット、パイプラインの一式を公開することで、VQ-VAに関する将来の研究を促進したい。
English
This paper studies Visual Question-Visual Answering (VQ-VA): generating an image, rather than text, in response to a visual question -- an ability that has recently emerged in proprietary systems such as NanoBanana and GPT-Image. To also bring this capability to open-source models, we introduce VQ-VA World, a data-centric framework built around an agentic pipeline for large-scale, targeted data construction. Leveraging web-scale deployment, this pipeline crawls a massive amount of ~1.8M high-quality, interleaved image-text samples for model training. For evaluation, we further release IntelligentBench, a human-curated benchmark that systematically assesses VQ-VA along the aspects of world knowledge, design knowledge, and reasoning. Training with VQ-VA World data yields strong empirical gains: it helps LightFusion attain 53.06 on IntelligentBench, substantially surpassing the best prior open-source baselines (i.e., 7.78 from vanilla LightFusion; 1.94 from UniWorld-V1), and significantly narrowing the gap toward leading proprietary systems (e.g., 81.67 from NanoBanana; 82.64 from GPT-Image). By releasing the full suite of model weights, datasets, and pipelines, we hope to stimulate future research on VQ-VA.