Vorstellung: Benchmarking für einheitliches Verständnis und Generierung von kausalen Weltprozess-Einblicken
Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights
December 1, 2025
papers.authors: Juanxi Tian, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan
cs.AI
papers.abstract
Aktuelle multimodale Modelle zielen darauf ab, die Grenzen unimodaler Repräsentationen durch Vereinheitlichung von Verständnis und Generierung zu überwinden, wobei häufig Text-zu-Bild (T2I)-Aufgaben zur Kalibrierung semantischer Konsistenz genutzt werden. Ihre Abhängigkeit von statischer Einzelbildgenerierung in Training und Evaluation führt jedoch zu einer Überanpassung an statische Mustererkennung und semantische Fusion, während grundsätzlich ihre Fähigkeit beeinträchtigt wird, dynamische Prozesse zu modellieren, die sich zeitlich entfalten. Um diese Einschränkungen zu adressieren, schlagen wir Envision vor – einen Benchmark für kausale Ereignisprogression zur verketteten Text-zu-Mehrbild-Generierung. Basierend auf Weltwissen und strukturiert durch raumzeitliche Kausalität reorganisiert er bestehende Evaluierungsdimensionen und umfasst 1.000 Vier-Stufen-Prompts aus sechs wissenschaftlichen und geisteswissenschaftlichen Domänen. Um die Evaluation von Einzelbildern zu sequentiellen Frames zu erweitern und zu bewerten, ob Modelle Weltwissen wirklich internalisieren und dabei kausal-zeitlichen Beschränkungen folgen, führen wir den Envision-Score ein – eine holistische Metrik, die multidimensionale Konsistenz, Physicalität und Ästhetik integriert. Die umfassende Evaluation von 15 Modellen (10 spezialisierte T2I-Modelle, 5 vereinheitlichte Modelle) zeigt: Spezialisierte T2I-Modelle beweisen Kompetenz in ästhetischer Darstellung, doch es mangelt ihnen an intrinsischem Weltwissen. Vereinheitlichte multimodale Modelle schließen diese Lücke und übertreffen spezialisierte Pendants konsequent in kohärenter narrativer Kausalität. Allerdings bleiben selbst diese vereinheitlichten Architekturen Closed-Source-Modellen unterlegen und scheitern an der Kernherausforderung raumzeitlicher Konsistenz. Dies demonstriert, dass eine Fokussierung auf kausal isolierte Einzelbilder Mehrbild-Schlussfolgerung und -Generierung behindert, statische Mustererkennung über dynamische Weltmodellierung stellt – und letztlich die Internalisation und Generierung von Weltwissen begrenzt.
English
Current multimodal models aim to transcend the limitations of single-modality representations by unifying understanding and generation, often using text-to-image (T2I) tasks to calibrate semantic consistency. However, their reliance on static, single-image generation in training and evaluation leads to overfitting to static pattern matching and semantic fusion, while fundamentally hindering their ability to model dynamic processes that unfold over time. To address these constraints, we propose Envision-a causal event progression benchmark for chained text-to-multi-image generation. Grounded in world knowledge and structured by spatiotemporal causality, it reorganizes existing evaluation dimensions and includes 1,000 four-stage prompts spanning six scientific and humanities domains. To transition evaluation from single images to sequential frames and assess whether models truly internalize world knowledge while adhering to causal-temporal constraints, we introduce Envision-Score, a holistic metric integrating multi-dimensional consistency, physicality, and aesthetics. Comprehensive evaluation of 15 models (10 specialized T2I models, 5 unified models) uncovers: specialized T2I models demonstrate proficiency in aesthetic rendering yet lack intrinsic world knowledge. Unified multimodal models bridge this gap, consistently outperforming specialized counterparts in causal narrative coherence. However, even these unified architectures remain subordinate to closed-source models and struggle to overcome the core challenge of spatiotemporal consistency. This demonstrates that a focus on causally-isolated single images impedes multi-frame reasoning and generation, promoting static pattern matching over dynamic world modeling-ultimately limiting world knowledge internalization, generation.