ChatPaper.aiChatPaper

VQ-VA World: Hacia una Pregunta Visual-Respuesta Visual de Alta Calidad

VQ-VA World: Towards High-Quality Visual Question-Visual Answering

November 25, 2025
Autores: Chenhui Gou, Zilong Chen, Zeyu Wang, Feng Li, Deyao Zhu, Zicheng Duan, Kunchang Li, Chaorui Deng, Hongyi Yuan, Haoqi Fan, Cihang Xie, Jianfei Cai, Hamid Rezatofighi
cs.AI

Resumen

Este artículo estudia la Visual Question-Visual Answering (VQ-VA): generar una imagen, en lugar de texto, en respuesta a una pregunta visual, una capacidad que ha surgido recientemente en sistemas propietarios como NanoBanana y GPT-Image. Para llevar también esta capacidad a modelos de código abierto, presentamos VQ-VA World, un marco de trabajo centrado en los datos construido alrededor de una pipeline agentiva para la construcción de datos a gran escala y dirigida. Aprovechando un despliegue a escala web, esta pipeline rastrea una cantidad masiva de ~1,8 millones de muestras intercaladas de imagen y texto de alta calidad para el entrenamiento del modelo. Para la evaluación, lanzamos además IntelligentBench, un benchmark curado por humanos que evalúa sistemáticamente la VQ-VA en los aspectos de conocimiento del mundo, conocimiento de diseño y razonamiento. El entrenamiento con los datos de VQ-VA World produce fuertes mejoras empíricas: ayuda a LightFusion a alcanzar 53,06 en IntelligentBench, superando sustancialmente los mejores baselines de código abierto previos (es decir, 7,78 de LightFusion básico; 1,94 de UniWorld-V1), y reduciendo significativamente la brecha hacia los sistemas propietarios líderes (por ejemplo, 81,67 de NanoBanana; 82,64 de GPT-Image). Al liberar el conjunto completo de pesos del modelo, conjuntos de datos y pipelines, esperamos estimular la investigación futura sobre VQ-VA.
English
This paper studies Visual Question-Visual Answering (VQ-VA): generating an image, rather than text, in response to a visual question -- an ability that has recently emerged in proprietary systems such as NanoBanana and GPT-Image. To also bring this capability to open-source models, we introduce VQ-VA World, a data-centric framework built around an agentic pipeline for large-scale, targeted data construction. Leveraging web-scale deployment, this pipeline crawls a massive amount of ~1.8M high-quality, interleaved image-text samples for model training. For evaluation, we further release IntelligentBench, a human-curated benchmark that systematically assesses VQ-VA along the aspects of world knowledge, design knowledge, and reasoning. Training with VQ-VA World data yields strong empirical gains: it helps LightFusion attain 53.06 on IntelligentBench, substantially surpassing the best prior open-source baselines (i.e., 7.78 from vanilla LightFusion; 1.94 from UniWorld-V1), and significantly narrowing the gap toward leading proprietary systems (e.g., 81.67 from NanoBanana; 82.64 from GPT-Image). By releasing the full suite of model weights, datasets, and pipelines, we hope to stimulate future research on VQ-VA.
PDF72December 1, 2025