ViGoR-Bench: Quão Longe Estão os Modelos Visuais Generativos dos Racionalizadores Visuais de Escopo Zero?

Resumo

Por trás da impressionante fidelidade visual dos modelos modernos de Geração de Inteligência Artificial (AIGC) encontra-se um "deserto lógico", onde os sistemas falham em tarefas que exigem raciocínio físico, causal ou espacial complexo. As avaliações atuais baseiam-se amplamente em métricas superficiais ou benchmarks fragmentados, criando um "miragem de desempenho" que ignora o processo generativo. Para enfrentar esta questão, apresentamos o ViGoR (Vision-Generative Reasoning-centric Benchmark), um quadro unificado concebido para desmantelar esta miragem. O ViGoR distingue-se através de quatro inovações principais: 1) cobertura holística cross-modal que une tarefas de Imagem-para-Imagem e Vídeo; 2) um mecanismo de dupla via que avalia tanto os processos intermédios como os resultados finais; 3) um juiz automatizado baseado em evidências que garante uma elevada correspondência com a avaliação humana; e 4) uma análise de diagnóstico granular que decompõe o desempenho em dimensões cognitivas de alto detalhe. Experiências realizadas em mais de 20 modelos líderes revelam que mesmo os sistemas mais avançados apresentam défices significativos de raciocínio, estabelecendo o ViGoR como um "teste de stress" crítico para a próxima geração de modelos de visão inteligente. A demonstração está disponível em https://vincenthancoder.github.io/ViGoR-Bench/.

English

Beneath the stunning visual fidelity of modern AIGC models lies a "logical desert", where systems fail tasks that require physical, causal, or complex spatial reasoning. Current evaluations largely rely on superficial metrics or fragmented benchmarks, creating a ``performance mirage'' that overlooks the generative process. To address this, we introduce ViGoR Vision-G}nerative Reasoning-centric Benchmark), a unified framework designed to dismantle this mirage. ViGoR distinguishes itself through four key innovations: 1) holistic cross-modal coverage bridging Image-to-Image and Video tasks; 2) a dual-track mechanism evaluating both intermediate processes and final results; 3) an evidence-grounded automated judge ensuring high human alignment; and 4) granular diagnostic analysis that decomposes performance into fine-grained cognitive dimensions. Experiments on over 20 leading models reveal that even state-of-the-art systems harbor significant reasoning deficits, establishing ViGoR as a critical ``stress test'' for the next generation of intelligent vision models. The demo have been available at https://vincenthancoder.github.io/ViGoR-Bench/

ViGoR-Bench: Quão Longe Estão os Modelos Visuais Generativos dos Racionalizadores Visuais de Escopo Zero?

ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

Resumo

Support