ViGoR-Bench: Wie weit sind visuelle generative Modelle von Zero-Shot-Visual-Reasoning-Systemen entfernt?

Zusammenfassung

Hinter der beeindruckenden visuellen Qualität moderner AIGC-Modelle verbirgt sich eine „logische Wüste“, in der Systeme bei Aufgaben versagen, die physikalisches, kausales oder komplexes räumliches Schlussfolgern erfordern. Bisherige Bewertungen stützen sich weitgehend auf oberflächliche Metriken oder fragmentierte Benchmarks, was einen „Leistungstrugschluss“ erzeugt, der den generativen Prozess außer Acht lässt. Um dies zu beheben, stellen wir ViGoR (Vision-Generative Reasoning-centric Benchmark) vor, einen einheitlichen Rahmen, der diesen Trugschluss auflösen soll. ViGoR zeichnet sich durch vier zentrale Innovationen aus: 1) eine ganzheitliche, modalitätsübergreifende Abdeckung, die Bild-zu-Bild- und Videoaufgaben verbindet; 2) einen dualen Bewertungsmechanismus, der sowohl Zwischenprozesse als auch Endergebnisse evaluiert; 3) einen evidenzbasierten, automatisierten Bewertungsmechanismus mit hoher Übereinstimmung zur menschlichen Beurteilung; und 4) eine detaillierte Diagnoseanalyse, die die Leistung in feingranulare kognitive Dimensionen zerlegt. Experimente mit über 20 führenden Modellen zeigen, dass selbst modernste Systeme erhebliche Defizite im Schlussfolgern aufweisen, und etablieren ViGoR als entscheidenden „Stresstest“ für die nächste Generation intelligenter Vision-Modelle. Die Demo ist verfügbar unter https://vincenthancoder.github.io/ViGoR-Bench/.

English

Beneath the stunning visual fidelity of modern AIGC models lies a "logical desert", where systems fail tasks that require physical, causal, or complex spatial reasoning. Current evaluations largely rely on superficial metrics or fragmented benchmarks, creating a ``performance mirage'' that overlooks the generative process. To address this, we introduce ViGoR Vision-G}nerative Reasoning-centric Benchmark), a unified framework designed to dismantle this mirage. ViGoR distinguishes itself through four key innovations: 1) holistic cross-modal coverage bridging Image-to-Image and Video tasks; 2) a dual-track mechanism evaluating both intermediate processes and final results; 3) an evidence-grounded automated judge ensuring high human alignment; and 4) granular diagnostic analysis that decomposes performance into fine-grained cognitive dimensions. Experiments on over 20 leading models reveal that even state-of-the-art systems harbor significant reasoning deficits, establishing ViGoR as a critical ``stress test'' for the next generation of intelligent vision models. The demo have been available at https://vincenthancoder.github.io/ViGoR-Bench/

ViGoR-Bench: Wie weit sind visuelle generative Modelle von Zero-Shot-Visual-Reasoning-Systemen entfernt?

ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

Zusammenfassung

Support