ChatPaper.aiChatPaper

Monde VQ-VA : Vers un Questionnement Visuel-Réponse Visuelle de Haute Qualité

VQ-VA World: Towards High-Quality Visual Question-Visual Answering

November 25, 2025
papers.authors: Chenhui Gou, Zilong Chen, Zeyu Wang, Feng Li, Deyao Zhu, Zicheng Duan, Kunchang Li, Chaorui Deng, Hongyi Yuan, Haoqi Fan, Cihang Xie, Jianfei Cai, Hamid Rezatofighi
cs.AI

papers.abstract

Ce travail étudie la Question Visuelle-Réponse Visuelle (VQ-VA) : la génération d'une image, plutôt que d'un texte, en réponse à une question visuelle – une capacité récemment apparue dans des systèmes propriétaires tels que NanoBanana et GPT-Image. Pour doter également les modèles open-source de cette capacité, nous présentons VQ-VA World, un cadre axé sur les données construit autour d'un pipeline agentique pour la construction ciblée de données à grande échelle. Tirant parti d'un déploiement à l'échelle du web, ce pipeline collecte une quantité massive d'environ 1,8 million d'échantillons image-texte entrelacés de haute qualité pour l'entraînement des modèles. Pour l'évaluation, nous publions en outre IntelligentBench, un benchmark organisé manuellement qui évalue systématiquement la VQ-VA selon les aspects des connaissances générales, des connaissances en design et du raisonnement. L'entraînement avec les données de VQ-VA World produit des gains empiriques significatifs : il permet à LightFusion d'atteindre un score de 53,06 sur IntelligentBench, surpassant substantiellement les meilleurs modèles open-source antérieurs (à savoir, 7,78 pour LightFusion standard ; 1,94 pour UniWorld-V1), et réduisant considérablement l'écart avec les systèmes propriétaires leaders (par exemple, 81,67 pour NanoBanana ; 82,64 pour GPT-Image). En publiant l'ensemble complet des poids des modèles, des jeux de données et des pipelines, nous espérons stimuler les recherches futures sur la VQ-VA.
English
This paper studies Visual Question-Visual Answering (VQ-VA): generating an image, rather than text, in response to a visual question -- an ability that has recently emerged in proprietary systems such as NanoBanana and GPT-Image. To also bring this capability to open-source models, we introduce VQ-VA World, a data-centric framework built around an agentic pipeline for large-scale, targeted data construction. Leveraging web-scale deployment, this pipeline crawls a massive amount of ~1.8M high-quality, interleaved image-text samples for model training. For evaluation, we further release IntelligentBench, a human-curated benchmark that systematically assesses VQ-VA along the aspects of world knowledge, design knowledge, and reasoning. Training with VQ-VA World data yields strong empirical gains: it helps LightFusion attain 53.06 on IntelligentBench, substantially surpassing the best prior open-source baselines (i.e., 7.78 from vanilla LightFusion; 1.94 from UniWorld-V1), and significantly narrowing the gap toward leading proprietary systems (e.g., 81.67 from NanoBanana; 82.64 from GPT-Image). By releasing the full suite of model weights, datasets, and pipelines, we hope to stimulate future research on VQ-VA.
PDF72December 1, 2025