ViGoR-Bench: 視覚生成モデルはゼロショット視覚推論器からどれだけ離れているか?
ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?
March 26, 2026
著者: Haonan Han, Jiancheng Huang, Xiaopeng Sun, Junyan He, Rui Yang, Jie Hu, Xiaojiang Peng, Lin Ma, Xiaoming Wei, Xiu Li
cs.AI
要旨
現代のAIGCモデルが示す驚異的な視覚的忠実度の裏側には「論理的砂漠」が広がっており、物理的・因果的・複雑な空間的推論を要する課題においてシステムは機能不全に陥っている。現在の評価手法は表層的な指標や断片化されたベンチマークに依存することが多く、生成プロセスを見落とした「性能の蜃気楼」を生み出している。この問題に対処するため、我々はこの蜃気楼を解体する統合フレームワーク「ViGoR(Vision-Generative Reasoning-centric Benchmark)」を提案する。ViGoRは以下の4つの革新的特徴で際立っている:1)画像間変換と映像タスクを架橋する包括的クロスモーダル対応、2)中間プロセスと最終結果の両方を評価する二重評価機構、3)人間の判断との高い一致を保証する証拠に基づく自動判定システム、4)性能を細粒度の認知次元に分解する詳細な診断分析。20以上の先進モデルを用いた実験により、最先端システムでさえ重大な推論欠陥を抱えることが明らかとなり、ViGoRは次世代知的視覚モデルにとって不可欠な「ストレステスト」として位置づけられた。デモはhttps://vincenthancoder.github.io/ViGoR-Bench/で公開中である。
English
Beneath the stunning visual fidelity of modern AIGC models lies a "logical desert", where systems fail tasks that require physical, causal, or complex spatial reasoning. Current evaluations largely rely on superficial metrics or fragmented benchmarks, creating a ``performance mirage'' that overlooks the generative process. To address this, we introduce ViGoR Vision-G}nerative Reasoning-centric Benchmark), a unified framework designed to dismantle this mirage. ViGoR distinguishes itself through four key innovations: 1) holistic cross-modal coverage bridging Image-to-Image and Video tasks; 2) a dual-track mechanism evaluating both intermediate processes and final results; 3) an evidence-grounded automated judge ensuring high human alignment; and 4) granular diagnostic analysis that decomposes performance into fine-grained cognitive dimensions. Experiments on over 20 leading models reveal that even state-of-the-art systems harbor significant reasoning deficits, establishing ViGoR as a critical ``stress test'' for the next generation of intelligent vision models. The demo have been available at https://vincenthancoder.github.io/ViGoR-Bench/