ChatPaper.aiChatPaper

ViGoR-Bench: Quanto Sono Lontani i Modelli Generativi Visivi dai Ragionatori Visivi Zero-Shot?

ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

March 26, 2026
Autori: Haonan Han, Jiancheng Huang, Xiaopeng Sun, Junyan He, Rui Yang, Jie Hu, Xiaojiang Peng, Lin Ma, Xiaoming Wei, Xiu Li
cs.AI

Abstract

Al di là della straordinaria fedeltà visiva dei moderni modelli di AIGC si cela un "deserto logico", in cui i sistemi falliscono compiti che richiedono ragionamenti di tipo fisico, causale o spaziale complesso. Le valutazioni attuali si basano in larga misura su metriche superficiali o benchmark frammentati, creando un "miraggio della performance" che trascura il processo generativo. Per affrontare questo problema, introduciamo ViGoR (Vision-Generative Reasoning-centric Benchmark), un framework unificato progettato per smantellare questo miraggio. ViGoR si distingue per quattro innovazioni chiave: 1) copertura olistica cross-modale che collega attività di Image-to-Image e Video; 2) un meccanismo a doppio binario che valuta sia i processi intermedi che i risultati finali; 3) un giudice automatizzato basato su evidenze che garantisce un elevato allineamento con la valutazione umana; e 4) un'analisi diagnostica granulare che scompone la performance in dimensioni cognitive a grana fine. Esperimenti condotti su oltre 20 modelli all'avanguardia rivelano che persino i sistemi più avanzati presentano deficit significativi nel ragionamento, stabilendo ViGoR come un fondamentale "test di stress" per la prossima generazione di modelli visivi intelligenti. La demo è disponibile all'indirizzo https://vincenthancoder.github.io/ViGoR-Bench/
English
Beneath the stunning visual fidelity of modern AIGC models lies a "logical desert", where systems fail tasks that require physical, causal, or complex spatial reasoning. Current evaluations largely rely on superficial metrics or fragmented benchmarks, creating a ``performance mirage'' that overlooks the generative process. To address this, we introduce ViGoR Vision-G}nerative Reasoning-centric Benchmark), a unified framework designed to dismantle this mirage. ViGoR distinguishes itself through four key innovations: 1) holistic cross-modal coverage bridging Image-to-Image and Video tasks; 2) a dual-track mechanism evaluating both intermediate processes and final results; 3) an evidence-grounded automated judge ensuring high human alignment; and 4) granular diagnostic analysis that decomposes performance into fine-grained cognitive dimensions. Experiments on over 20 leading models reveal that even state-of-the-art systems harbor significant reasoning deficits, establishing ViGoR as a critical ``stress test'' for the next generation of intelligent vision models. The demo have been available at https://vincenthancoder.github.io/ViGoR-Bench/
PDF362April 3, 2026