ViGoR-Bench: Quanto Sono Lontani i Modelli Generativi Visivi dai Ragionatori Visivi Zero-Shot?

Abstract

Al di là della straordinaria fedeltà visiva dei moderni modelli di AIGC si cela un "deserto logico", in cui i sistemi falliscono compiti che richiedono ragionamenti di tipo fisico, causale o spaziale complesso. Le valutazioni attuali si basano in larga misura su metriche superficiali o benchmark frammentati, creando un "miraggio della performance" che trascura il processo generativo. Per affrontare questo problema, introduciamo ViGoR (Vision-Generative Reasoning-centric Benchmark), un framework unificato progettato per smantellare questo miraggio. ViGoR si distingue per quattro innovazioni chiave: 1) copertura olistica cross-modale che collega attività di Image-to-Image e Video; 2) un meccanismo a doppio binario che valuta sia i processi intermedi che i risultati finali; 3) un giudice automatizzato basato su evidenze che garantisce un elevato allineamento con la valutazione umana; e 4) un'analisi diagnostica granulare che scompone la performance in dimensioni cognitive a grana fine. Esperimenti condotti su oltre 20 modelli all'avanguardia rivelano che persino i sistemi più avanzati presentano deficit significativi nel ragionamento, stabilendo ViGoR come un fondamentale "test di stress" per la prossima generazione di modelli visivi intelligenti. La demo è disponibile all'indirizzo https://vincenthancoder.github.io/ViGoR-Bench/

English

Beneath the stunning visual fidelity of modern AIGC models lies a "logical desert", where systems fail tasks that require physical, causal, or complex spatial reasoning. Current evaluations largely rely on superficial metrics or fragmented benchmarks, creating a ``performance mirage'' that overlooks the generative process. To address this, we introduce ViGoR Vision-G}nerative Reasoning-centric Benchmark), a unified framework designed to dismantle this mirage. ViGoR distinguishes itself through four key innovations: 1) holistic cross-modal coverage bridging Image-to-Image and Video tasks; 2) a dual-track mechanism evaluating both intermediate processes and final results; 3) an evidence-grounded automated judge ensuring high human alignment; and 4) granular diagnostic analysis that decomposes performance into fine-grained cognitive dimensions. Experiments on over 20 leading models reveal that even state-of-the-art systems harbor significant reasoning deficits, establishing ViGoR as a critical ``stress test'' for the next generation of intelligent vision models. The demo have been available at https://vincenthancoder.github.io/ViGoR-Bench/

ViGoR-Bench: Quanto Sono Lontani i Modelli Generativi Visivi dai Ragionatori Visivi Zero-Shot?

ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

Abstract

Support