ViGoR-Bench: Насколько далеки визуальные генеративные модели от моделей с нулевым обучением для визуального мышления?

Аннотация

За впечатляющей визуальной точностью современных моделей генеративного ИИ скрывается «логическая пустыня» — системные сбои при выполнении задач, требующих физического, каузального или сложного пространственного мышления. Существующие методы оценки в основном опираются на поверхностные метрики или фрагментированные бенчмарки, создавая «мираж производительности», который игнорирует генеративный процесс. Для решения этой проблемы мы представляем ViGoR (Vision-Generative Reasoning-centric Benchmark) — унифицированную систему, разработанную для разоблачения этого миража. ViGoR отличается четырьмя ключевыми инновациями: 1) целостным кросс-модальным охватом, объединяющим задачи Image-to-Image и Video; 2) двухуровневым механизмом оценки как промежуточных процессов, так и конечных результатов; 3) автоматизированной оценкой на основе доказательств с высокой согласованностью с человеческим judgment; 4) детализированным диагностическим анализом, разлагающим производительность на тонкие когнитивные измерения. Эксперименты с более чем 20 ведущими моделями выявили, что даже передовые системы обладают значительными пробелами в логическом мышлении, что делает ViGoR критически важным «стресс-тестом» для следующего поколения интеллектуальных vision-моделей. Демонстрация доступна по адресу https://vincenthancoder.github.io/ViGoR-Bench/

English

Beneath the stunning visual fidelity of modern AIGC models lies a "logical desert", where systems fail tasks that require physical, causal, or complex spatial reasoning. Current evaluations largely rely on superficial metrics or fragmented benchmarks, creating a ``performance mirage'' that overlooks the generative process. To address this, we introduce ViGoR Vision-G}nerative Reasoning-centric Benchmark), a unified framework designed to dismantle this mirage. ViGoR distinguishes itself through four key innovations: 1) holistic cross-modal coverage bridging Image-to-Image and Video tasks; 2) a dual-track mechanism evaluating both intermediate processes and final results; 3) an evidence-grounded automated judge ensuring high human alignment; and 4) granular diagnostic analysis that decomposes performance into fine-grained cognitive dimensions. Experiments on over 20 leading models reveal that even state-of-the-art systems harbor significant reasoning deficits, establishing ViGoR as a critical ``stress test'' for the next generation of intelligent vision models. The demo have been available at https://vincenthancoder.github.io/ViGoR-Bench/

ViGoR-Bench: Насколько далеки визуальные генеративные модели от моделей с нулевым обучением для визуального мышления?

ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

Аннотация

Support