ViGoR-Bench: Насколько далеки визуальные генеративные модели от моделей с нулевым обучением для визуального мышления?
ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?
March 26, 2026
Авторы: Haonan Han, Jiancheng Huang, Xiaopeng Sun, Junyan He, Rui Yang, Jie Hu, Xiaojiang Peng, Lin Ma, Xiaoming Wei, Xiu Li
cs.AI
Аннотация
За впечатляющей визуальной точностью современных моделей генеративного ИИ скрывается «логическая пустыня» — системные сбои при выполнении задач, требующих физического, каузального или сложного пространственного мышления. Существующие методы оценки в основном опираются на поверхностные метрики или фрагментированные бенчмарки, создавая «мираж производительности», который игнорирует генеративный процесс. Для решения этой проблемы мы представляем ViGoR (Vision-Generative Reasoning-centric Benchmark) — унифицированную систему, разработанную для разоблачения этого миража. ViGoR отличается четырьмя ключевыми инновациями: 1) целостным кросс-модальным охватом, объединяющим задачи Image-to-Image и Video; 2) двухуровневым механизмом оценки как промежуточных процессов, так и конечных результатов; 3) автоматизированной оценкой на основе доказательств с высокой согласованностью с человеческим judgment; 4) детализированным диагностическим анализом, разлагающим производительность на тонкие когнитивные измерения. Эксперименты с более чем 20 ведущими моделями выявили, что даже передовые системы обладают значительными пробелами в логическом мышлении, что делает ViGoR критически важным «стресс-тестом» для следующего поколения интеллектуальных vision-моделей. Демонстрация доступна по адресу https://vincenthancoder.github.io/ViGoR-Bench/
English
Beneath the stunning visual fidelity of modern AIGC models lies a "logical desert", where systems fail tasks that require physical, causal, or complex spatial reasoning. Current evaluations largely rely on superficial metrics or fragmented benchmarks, creating a ``performance mirage'' that overlooks the generative process. To address this, we introduce ViGoR Vision-G}nerative Reasoning-centric Benchmark), a unified framework designed to dismantle this mirage. ViGoR distinguishes itself through four key innovations: 1) holistic cross-modal coverage bridging Image-to-Image and Video tasks; 2) a dual-track mechanism evaluating both intermediate processes and final results; 3) an evidence-grounded automated judge ensuring high human alignment; and 4) granular diagnostic analysis that decomposes performance into fine-grained cognitive dimensions. Experiments on over 20 leading models reveal that even state-of-the-art systems harbor significant reasoning deficits, establishing ViGoR as a critical ``stress test'' for the next generation of intelligent vision models. The demo have been available at https://vincenthancoder.github.io/ViGoR-Bench/