ViGoR-Bench : Quelle est la distance entre les modèles génératifs visuels et les raisonneurs visuels en zero-shot ?
ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?
March 26, 2026
Auteurs: Haonan Han, Jiancheng Huang, Xiaopeng Sun, Junyan He, Rui Yang, Jie Hu, Xiaojiang Peng, Lin Ma, Xiaoming Wei, Xiu Li
cs.AI
Résumé
Sous la fidélité visuelle époustouflante des modèles modernes de génération d'intelligence artificielle (AIGC) se cache un « désert logique », où les systèmes échouent à des tâches nécessitant un raisonnement physique, causal ou spatial complexe. Les évaluations actuelles reposent largement sur des métriques superficielles ou des benchmarks fragmentés, créant un « mirage de performance » qui néglige le processus génératif. Pour y remédier, nous présentons ViGoR (Vision-Generative Reasoning-centric Benchmark), un cadre unifié conçu pour démanteler ce mirage. ViGoR se distingue par quatre innovations clés : 1) une couverture multimodale holistique reliant les tâches Image-à-Image et Vidéo ; 2) un mécanisme à double voie évaluant à la fois les processus intermédiaires et les résultats finaux ; 3) un juge automatisé fondé sur des preuves garantissant un fort alignement avec l'évaluation humaine ; et 4) une analyse diagnostique granulaire qui décompose la performance en dimensions cognitives fines. Des expériences sur plus de 20 modèles leaders révèlent que même les systèmes les plus avancés présentent des déficits de raisonnement significatifs, établissant ViGoR comme un « test de résistance » critique pour la prochaine génération de modèles de vision intelligents. La démonstration est disponible à l'adresse https://vincenthancoder.github.io/ViGoR-Bench/.
English
Beneath the stunning visual fidelity of modern AIGC models lies a "logical desert", where systems fail tasks that require physical, causal, or complex spatial reasoning. Current evaluations largely rely on superficial metrics or fragmented benchmarks, creating a ``performance mirage'' that overlooks the generative process. To address this, we introduce ViGoR Vision-G}nerative Reasoning-centric Benchmark), a unified framework designed to dismantle this mirage. ViGoR distinguishes itself through four key innovations: 1) holistic cross-modal coverage bridging Image-to-Image and Video tasks; 2) a dual-track mechanism evaluating both intermediate processes and final results; 3) an evidence-grounded automated judge ensuring high human alignment; and 4) granular diagnostic analysis that decomposes performance into fine-grained cognitive dimensions. Experiments on over 20 leading models reveal that even state-of-the-art systems harbor significant reasoning deficits, establishing ViGoR as a critical ``stress test'' for the next generation of intelligent vision models. The demo have been available at https://vincenthancoder.github.io/ViGoR-Bench/