ViGoR-Bench: ¿Qué Tan Lejos Están los Modelos Generativos Visuales de los Razonadores Visuales de Cero Disparos?

Resumen

Bajo la impresionante fidelidad visual de los modelos modernos de AIGC (Generación de Inteligencia Artificial) se esconde un "desierto lógico", donde los sistemas fallan en tareas que requieren razonamiento físico, causal o espacial complejo. Las evaluaciones actuales se basan en gran medida en métricas superficiales o benchmarks fragmentados, creando un "espejismo de rendimiento" que pasa por alto el proceso generativo. Para abordar este problema, presentamos ViGoR (Benchmark de Razonamiento Generativo-Visual), un marco unificado diseñado para desmantelar este espejismo. ViGoR se distingue por cuatro innovaciones clave: 1) cobertura holística multimodal que abarca tareas de Imagen-a-Imagen y Video; 2) un mecanismo de doble vía que evalúa tanto los procesos intermedios como los resultados finales; 3) un juez automatizado basado en evidencias que garantiza una alta alineación con la evaluación humana; y 4) un análisis de diagnóstico granular que descompone el rendimiento en dimensiones cognitivas detalladas. Los experimentos realizados en más de 20 modelos líderes revelan que incluso los sistemas de última generación presentan déficits significativos de razonamiento, estableciendo a ViGoR como una "prueba de estrés" crucial para la próxima generación de modelos de visión inteligente. La demostración está disponible en https://vincenthancoder.github.io/ViGoR-Bench/.

English

Beneath the stunning visual fidelity of modern AIGC models lies a "logical desert", where systems fail tasks that require physical, causal, or complex spatial reasoning. Current evaluations largely rely on superficial metrics or fragmented benchmarks, creating a ``performance mirage'' that overlooks the generative process. To address this, we introduce ViGoR Vision-G}nerative Reasoning-centric Benchmark), a unified framework designed to dismantle this mirage. ViGoR distinguishes itself through four key innovations: 1) holistic cross-modal coverage bridging Image-to-Image and Video tasks; 2) a dual-track mechanism evaluating both intermediate processes and final results; 3) an evidence-grounded automated judge ensuring high human alignment; and 4) granular diagnostic analysis that decomposes performance into fine-grained cognitive dimensions. Experiments on over 20 leading models reveal that even state-of-the-art systems harbor significant reasoning deficits, establishing ViGoR as a critical ``stress test'' for the next generation of intelligent vision models. The demo have been available at https://vincenthancoder.github.io/ViGoR-Bench/

ViGoR-Bench: ¿Qué Tan Lejos Están los Modelos Generativos Visuales de los Razonadores Visuales de Cero Disparos?

ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

Resumen

Support