VQ-VA World: Verso un Question-Answering Visivo di Alta Qualità
VQ-VA World: Towards High-Quality Visual Question-Visual Answering
November 25, 2025
Autori: Chenhui Gou, Zilong Chen, Zeyu Wang, Feng Li, Deyao Zhu, Zicheng Duan, Kunchang Li, Chaorui Deng, Hongyi Yuan, Haoqi Fan, Cihang Xie, Jianfei Cai, Hamid Rezatofighi
cs.AI
Abstract
Questo studio esamina il Visual Question-Visual Answering (VQ-VA): la generazione di un'immagine, anziché di testo, in risposta a una domanda visiva – un'abilità recentemente emersa in sistemi proprietari come NanoBanana e GPT-Image. Per portare questa capacità anche ai modelli open-source, introduciamo VQ-VA World, un framework incentrato sui dati costruito attorno a una pipeline agente per la costruzione di dati su larga scala e mirata. Sfruttando un deployment su scala web, questa pipeline raccoglie una grande quantità di circa 1,8 milioni di campioni immagine-testo di alta qualità e intercalati per l'addestramento del modello. Per la valutazione, rilasciamo inoltre IntelligentBench, un benchmark curato da esseri umani che valuta sistematicamente il VQ-VA lungo gli aspetti della conoscenza del mondo, della conoscenza del design e del ragionamento. L'addestramento con i dati di VQ-VA World produce forti miglioramenti empirici: aiuta LightFusion a raggiungere 53,06 su IntelligentBench, superando sostanzialmente le migliori baseline open-source precedenti (ad esempio, 7,78 da LightFusion vanilla; 1,94 da UniWorld-V1) e riducendo significativamente il divario rispetto ai principali sistemi proprietari (ad esempio, 81,67 da NanoBanana; 82,64 da GPT-Image). Rilasciando la suite completa di pesi del modello, dataset e pipeline, speriamo di stimolare la ricerca futura sul VQ-VA.
English
This paper studies Visual Question-Visual Answering (VQ-VA): generating an image, rather than text, in response to a visual question -- an ability that has recently emerged in proprietary systems such as NanoBanana and GPT-Image. To also bring this capability to open-source models, we introduce VQ-VA World, a data-centric framework built around an agentic pipeline for large-scale, targeted data construction. Leveraging web-scale deployment, this pipeline crawls a massive amount of ~1.8M high-quality, interleaved image-text samples for model training. For evaluation, we further release IntelligentBench, a human-curated benchmark that systematically assesses VQ-VA along the aspects of world knowledge, design knowledge, and reasoning. Training with VQ-VA World data yields strong empirical gains: it helps LightFusion attain 53.06 on IntelligentBench, substantially surpassing the best prior open-source baselines (i.e., 7.78 from vanilla LightFusion; 1.94 from UniWorld-V1), and significantly narrowing the gap toward leading proprietary systems (e.g., 81.67 from NanoBanana; 82.64 from GPT-Image). By releasing the full suite of model weights, datasets, and pipelines, we hope to stimulate future research on VQ-VA.