ViGoR-Bench: 시각 생성 모델은 제로샷 시각 추론기와 얼마나 차이가 있을까?
ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?
March 26, 2026
저자: Haonan Han, Jiancheng Huang, Xiaopeng Sun, Junyan He, Rui Yang, Jie Hu, Xiaojiang Peng, Lin Ma, Xiaoming Wei, Xiu Li
cs.AI
초록
현대 AIGC 모델의 놀라운 시각적 정확성 아래에는, 물리적·인과적 또는 복잡한 공간 추론이 필요한 작업에서 시스템이 실패하는 "논리적 사막"이 존재합니다. 현재 평가 방식은 대부분 피상적인 지표나 단편적인 벤치마크에 의존하여 생성 과정을 간과하는 '성능 신기루'를 만들어냅니다. 이를 해결하기 위해 우리는 이러한 신기루를 해체하도록 설계된 통합 프레임워크인 ViGoR(Vision-Generative Reasoning-centric Benchmark)을 소개합니다. ViGoR은 다음 네 가지 핵심 혁신을 통해 차별화됩니다: 1) 이미지-이미지 및 비디오 작업을 연결하는 종합적인 크로스 모달 커버리지, 2) 중간 과정과 최종 결과를 모두 평가하는 이중 트랙 메커니즘, 3) 높은 인간 일치도를 보장하는 증거 기반 자동 평가 시스템, 4) 성능을 세분화된 인지 차원으로 분해하는 세분화된 진단 분석. 20개 이상의 주요 모델에 대한 실험 결과, 최첨단 시스템조차도 상당한 추론 결함을 안고 있음이 드러났으며, 이는 ViGoR이 차세대 지능형 비전 모델에 대한 중요한 '스트레스 테스트'로서의 역할을 정립함을 보여줍니다. 데모는 https://vincenthancoder.github.io/ViGoR-Bench/에서 이용 가능합니다.
English
Beneath the stunning visual fidelity of modern AIGC models lies a "logical desert", where systems fail tasks that require physical, causal, or complex spatial reasoning. Current evaluations largely rely on superficial metrics or fragmented benchmarks, creating a ``performance mirage'' that overlooks the generative process. To address this, we introduce ViGoR Vision-G}nerative Reasoning-centric Benchmark), a unified framework designed to dismantle this mirage. ViGoR distinguishes itself through four key innovations: 1) holistic cross-modal coverage bridging Image-to-Image and Video tasks; 2) a dual-track mechanism evaluating both intermediate processes and final results; 3) an evidence-grounded automated judge ensuring high human alignment; and 4) granular diagnostic analysis that decomposes performance into fine-grained cognitive dimensions. Experiments on over 20 leading models reveal that even state-of-the-art systems harbor significant reasoning deficits, establishing ViGoR as a critical ``stress test'' for the next generation of intelligent vision models. The demo have been available at https://vincenthancoder.github.io/ViGoR-Bench/