ViGoR-Bench: Quão Longe Estão os Modelos Visuais Generativos dos Racionalizadores Visuais de Escopo Zero?
ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?
March 26, 2026
Autores: Haonan Han, Jiancheng Huang, Xiaopeng Sun, Junyan He, Rui Yang, Jie Hu, Xiaojiang Peng, Lin Ma, Xiaoming Wei, Xiu Li
cs.AI
Resumo
Por trás da impressionante fidelidade visual dos modelos modernos de Geração de Inteligência Artificial (AIGC) encontra-se um "deserto lógico", onde os sistemas falham em tarefas que exigem raciocínio físico, causal ou espacial complexo. As avaliações atuais baseiam-se amplamente em métricas superficiais ou benchmarks fragmentados, criando um "miragem de desempenho" que ignora o processo generativo. Para enfrentar esta questão, apresentamos o ViGoR (Vision-Generative Reasoning-centric Benchmark), um quadro unificado concebido para desmantelar esta miragem. O ViGoR distingue-se através de quatro inovações principais: 1) cobertura holística cross-modal que une tarefas de Imagem-para-Imagem e Vídeo; 2) um mecanismo de dupla via que avalia tanto os processos intermédios como os resultados finais; 3) um juiz automatizado baseado em evidências que garante uma elevada correspondência com a avaliação humana; e 4) uma análise de diagnóstico granular que decompõe o desempenho em dimensões cognitivas de alto detalhe. Experiências realizadas em mais de 20 modelos líderes revelam que mesmo os sistemas mais avançados apresentam défices significativos de raciocínio, estabelecendo o ViGoR como um "teste de stress" crítico para a próxima geração de modelos de visão inteligente. A demonstração está disponível em https://vincenthancoder.github.io/ViGoR-Bench/.
English
Beneath the stunning visual fidelity of modern AIGC models lies a "logical desert", where systems fail tasks that require physical, causal, or complex spatial reasoning. Current evaluations largely rely on superficial metrics or fragmented benchmarks, creating a ``performance mirage'' that overlooks the generative process. To address this, we introduce ViGoR Vision-G}nerative Reasoning-centric Benchmark), a unified framework designed to dismantle this mirage. ViGoR distinguishes itself through four key innovations: 1) holistic cross-modal coverage bridging Image-to-Image and Video tasks; 2) a dual-track mechanism evaluating both intermediate processes and final results; 3) an evidence-grounded automated judge ensuring high human alignment; and 4) granular diagnostic analysis that decomposes performance into fine-grained cognitive dimensions. Experiments on over 20 leading models reveal that even state-of-the-art systems harbor significant reasoning deficits, establishing ViGoR as a critical ``stress test'' for the next generation of intelligent vision models. The demo have been available at https://vincenthancoder.github.io/ViGoR-Bench/