VQ-VA World: в поисках высококачественного визуального вопроса-визуального ответа
VQ-VA World: Towards High-Quality Visual Question-Visual Answering
November 25, 2025
Авторы: Chenhui Gou, Zilong Chen, Zeyu Wang, Feng Li, Deyao Zhu, Zicheng Duan, Kunchang Li, Chaorui Deng, Hongyi Yuan, Haoqi Fan, Cihang Xie, Jianfei Cai, Hamid Rezatofighi
cs.AI
Аннотация
В данной работе исследуется задача «Визуальный вопрос — визуальный ответ» (VQ-VA): генерация изображения, а не текста, в ответ на визуальный вопрос — способность, которая недавно появилась в проприетарных системах, таких как NanoBanana и GPT-Image. Чтобы обеспечить эту возможность и для моделей с открытым исходным кодом, мы представляем VQ-VA World, ориентированный на данные фреймворк, построенный на основе агентного пайплайна для целенаправленного масштабируемого сбора данных. Благодаря развертыванию в веб-масштабе, этот пайплайн собирает огромный объем (~1,8 млн) высококачественных чередующихся образцов «изображение-текст» для обучения моделей. Для оценки мы также представляем IntelligentBench, курируемый человеком бенчмарк, который систематически оценивает VQ-VA по аспектам знаний о мире, знаний о дизайне и способности к рассуждению. Обучение на данных VQ-VA World дает значительный эмпирический прирост: оно позволяет LightFusion достичь показателя 53,06 на IntelligentBench, что существенно превосходит лучшие предыдущие открытые базовые модели (а именно, 7,78 у стандартного LightFusion; 1,94 у UniWorld-V1) и значительно сокращает разрыв с ведущими проприетарными системами (например, 81,67 у NanoBanana; 82,64 у GPT-Image). Опубликовав полный набор весов моделей, наборов данных и пайплайнов, мы надеемся стимулировать будущие исследования в области VQ-VA.
English
This paper studies Visual Question-Visual Answering (VQ-VA): generating an image, rather than text, in response to a visual question -- an ability that has recently emerged in proprietary systems such as NanoBanana and GPT-Image. To also bring this capability to open-source models, we introduce VQ-VA World, a data-centric framework built around an agentic pipeline for large-scale, targeted data construction. Leveraging web-scale deployment, this pipeline crawls a massive amount of ~1.8M high-quality, interleaved image-text samples for model training. For evaluation, we further release IntelligentBench, a human-curated benchmark that systematically assesses VQ-VA along the aspects of world knowledge, design knowledge, and reasoning. Training with VQ-VA World data yields strong empirical gains: it helps LightFusion attain 53.06 on IntelligentBench, substantially surpassing the best prior open-source baselines (i.e., 7.78 from vanilla LightFusion; 1.94 from UniWorld-V1), and significantly narrowing the gap toward leading proprietary systems (e.g., 81.67 from NanoBanana; 82.64 from GPT-Image). By releasing the full suite of model weights, datasets, and pipelines, we hope to stimulate future research on VQ-VA.