VQ-VA World: Rumo a Perguntas Visuais-Respostas Visuais de Alta Qualidade

Resumo

Este artigo estuda a Visual Question-Visual Answering (VQ-VA): a geração de uma imagem, em vez de texto, em resposta a uma questão visual — uma capacidade que surgiu recentemente em sistemas proprietários como o NanoBanana e o GPT-Image. Para também levar essa capacidade a modelos de código aberto, introduzimos o VQ-VA World, uma estrutura centrada em dados construída em torno de um pipeline de agente para a construção de dados em larga escala e direcionada. Aproveitando uma implantação em escala web, este pipeline rastreia uma quantidade massiva de aproximadamente 1,8 milhão de amostras intercaladas de imagem-texto de alta qualidade para o treinamento de modelos. Para avaliação, lançamos ainda o IntelligentBench, um benchmark curado por humanos que avalia sistematicamente a VQ-VA nos aspectos de conhecimento mundial, conhecimento de design e raciocínio. O treinamento com os dados do VQ-VA World produz ganhos empíricos significativos: ele ajuda o LightFusion a atingir 53,06 no IntelligentBench, superando substancialmente as melhores bases de código aberto anteriores (ou seja, 7,78 do LightFusion padrão; 1,94 do UniWorld-V1) e reduzindo significativamente a lacuna em relação aos sistemas proprietários líderes (por exemplo, 81,67 do NanoBanana; 82,64 do GPT-Image). Ao disponibilizar o conjunto completo de pesos do modelo, conjuntos de dados e pipelines, esperamos estimular pesquisas futuras sobre VQ-VA.

English

This paper studies Visual Question-Visual Answering (VQ-VA): generating an image, rather than text, in response to a visual question -- an ability that has recently emerged in proprietary systems such as NanoBanana and GPT-Image. To also bring this capability to open-source models, we introduce VQ-VA World, a data-centric framework built around an agentic pipeline for large-scale, targeted data construction. Leveraging web-scale deployment, this pipeline crawls a massive amount of ~1.8M high-quality, interleaved image-text samples for model training. For evaluation, we further release IntelligentBench, a human-curated benchmark that systematically assesses VQ-VA along the aspects of world knowledge, design knowledge, and reasoning. Training with VQ-VA World data yields strong empirical gains: it helps LightFusion attain 53.06 on IntelligentBench, substantially surpassing the best prior open-source baselines (i.e., 7.78 from vanilla LightFusion; 1.94 from UniWorld-V1), and significantly narrowing the gap toward leading proprietary systems (e.g., 81.67 from NanoBanana; 82.64 from GPT-Image). By releasing the full suite of model weights, datasets, and pipelines, we hope to stimulate future research on VQ-VA.

VQ-VA World: Rumo a Perguntas Visuais-Respostas Visuais de Alta Qualidade

VQ-VA World: Towards High-Quality Visual Question-Visual Answering

Resumo

Support