ViGoR-Bench: Hoe Ver Zijn Visueel Generatieve Modellen Van Zero-Shot Visuele Redeneerders?

Samenvatting

Achter de verbluffende visuele kwaliteit van moderne AIGC-modellen schuilt een "logische woestijn", waarin systemen falen bij taken die fysiek, causaal of complex ruimtelijk redeneren vereisen. Huidige evaluaties vertrouwen grotendeels op oppervlakkige metrieken of gefragmenteerde benchmarks, wat een "prestatiemirage" creëert die het generatieve proces over het hoofd ziet. Om dit aan te pakken, introduceren we ViGoR (Vision-Generative Reasoning-centric Benchmark), een uniform kader ontworpen om deze mirage te ontmantelen. ViGoR onderscheidt zich door vier belangrijke innovaties: 1) holistische cross-modale dekking die Image-to-Image- en Videotaken verbindt; 2) een dual-trackmechanisme dat zowel tussenprocessen als eindresultaten evalueert; 3) een op bewijzen gestoelde geautomatiseerde beoordelaar die een hoge menselijke afstemming garandeert; en 4) een gedetailleerde diagnostische analyse die prestaties opdeelt in fijnmazige cognitieve dimensies. Experimenten met meer dan 20 toonaangevende modellen onthullen dat zelfs state-of-the-art-systemen aanzienlijke redeneertekorten vertonen, waarmee ViGoR zich vestigt als een cruciale "stresstest" voor de volgende generatie intelligente visionmodellen. De demo is beschikbaar op https://vincenthancoder.github.io/ViGoR-Bench/.

English

Beneath the stunning visual fidelity of modern AIGC models lies a "logical desert", where systems fail tasks that require physical, causal, or complex spatial reasoning. Current evaluations largely rely on superficial metrics or fragmented benchmarks, creating a ``performance mirage'' that overlooks the generative process. To address this, we introduce ViGoR Vision-G}nerative Reasoning-centric Benchmark), a unified framework designed to dismantle this mirage. ViGoR distinguishes itself through four key innovations: 1) holistic cross-modal coverage bridging Image-to-Image and Video tasks; 2) a dual-track mechanism evaluating both intermediate processes and final results; 3) an evidence-grounded automated judge ensuring high human alignment; and 4) granular diagnostic analysis that decomposes performance into fine-grained cognitive dimensions. Experiments on over 20 leading models reveal that even state-of-the-art systems harbor significant reasoning deficits, establishing ViGoR as a critical ``stress test'' for the next generation of intelligent vision models. The demo have been available at https://vincenthancoder.github.io/ViGoR-Bench/

ViGoR-Bench: Hoe Ver Zijn Visueel Generatieve Modellen Van Zero-Shot Visuele Redeneerders?

ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

Samenvatting

Support