VQ-VA World: Rumo a Perguntas Visuais-Respostas Visuais de Alta Qualidade
VQ-VA World: Towards High-Quality Visual Question-Visual Answering
November 25, 2025
Autores: Chenhui Gou, Zilong Chen, Zeyu Wang, Feng Li, Deyao Zhu, Zicheng Duan, Kunchang Li, Chaorui Deng, Hongyi Yuan, Haoqi Fan, Cihang Xie, Jianfei Cai, Hamid Rezatofighi
cs.AI
Resumo
Este artigo estuda a Visual Question-Visual Answering (VQ-VA): a geração de uma imagem, em vez de texto, em resposta a uma questão visual — uma capacidade que surgiu recentemente em sistemas proprietários como o NanoBanana e o GPT-Image. Para também levar essa capacidade a modelos de código aberto, introduzimos o VQ-VA World, uma estrutura centrada em dados construída em torno de um pipeline de agente para a construção de dados em larga escala e direcionada. Aproveitando uma implantação em escala web, este pipeline rastreia uma quantidade massiva de aproximadamente 1,8 milhão de amostras intercaladas de imagem-texto de alta qualidade para o treinamento de modelos. Para avaliação, lançamos ainda o IntelligentBench, um benchmark curado por humanos que avalia sistematicamente a VQ-VA nos aspectos de conhecimento mundial, conhecimento de design e raciocínio. O treinamento com os dados do VQ-VA World produz ganhos empíricos significativos: ele ajuda o LightFusion a atingir 53,06 no IntelligentBench, superando substancialmente as melhores bases de código aberto anteriores (ou seja, 7,78 do LightFusion padrão; 1,94 do UniWorld-V1) e reduzindo significativamente a lacuna em relação aos sistemas proprietários líderes (por exemplo, 81,67 do NanoBanana; 82,64 do GPT-Image). Ao disponibilizar o conjunto completo de pesos do modelo, conjuntos de dados e pipelines, esperamos estimular pesquisas futuras sobre VQ-VA.
English
This paper studies Visual Question-Visual Answering (VQ-VA): generating an image, rather than text, in response to a visual question -- an ability that has recently emerged in proprietary systems such as NanoBanana and GPT-Image. To also bring this capability to open-source models, we introduce VQ-VA World, a data-centric framework built around an agentic pipeline for large-scale, targeted data construction. Leveraging web-scale deployment, this pipeline crawls a massive amount of ~1.8M high-quality, interleaved image-text samples for model training. For evaluation, we further release IntelligentBench, a human-curated benchmark that systematically assesses VQ-VA along the aspects of world knowledge, design knowledge, and reasoning. Training with VQ-VA World data yields strong empirical gains: it helps LightFusion attain 53.06 on IntelligentBench, substantially surpassing the best prior open-source baselines (i.e., 7.78 from vanilla LightFusion; 1.94 from UniWorld-V1), and significantly narrowing the gap toward leading proprietary systems (e.g., 81.67 from NanoBanana; 82.64 from GPT-Image). By releasing the full suite of model weights, datasets, and pipelines, we hope to stimulate future research on VQ-VA.