Verbeelding: Benchmarking van Geïntegreerd Begrip en Generatie voor Inzichten in Causale Wereldprocessen
Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights
December 1, 2025
Auteurs: Juanxi Tian, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan
cs.AI
Samenvatting
Huidige multimodale modellen streven ernaar de beperkingen van unimodale representaties te overstijgen door begrip en generatie te verenigen, waarbij vaak tekst-naar-beeld (T2I) taken worden gebruikt om semantische consistentie te kalibreren. Hun afhankelijkheid van statische, enkelbeeldgeneratie tijdens training en evaluatie leidt echter tot overfitting aan statische patroonherkenning en semantische fusie, terwijl het fundamenteel hun vermogen belemmert om dynamische processen die zich in de tijd ontvouwen te modelleren. Om deze beperkingen aan te pakken, presenteren wij Envision – een causaal gebenchmarkt voor gebeurtenisprogressie voor geketende tekst-naar-meerdere-beelden-generatie. Geworteld in wereldkennis en gestructureerd door ruimtelijk-temporele causaliteit, reorganiseert het bestaande evaluatiedimensies en omvat het 1.000 prompts met vier fasen verspreid over zes wetenschappelijke en geesteswetenschappelijke domeinen. Om de evaluatie van enkelvoudige beelden naar sequentiële frames te verleggen en te beoordelen of modellen werkelijk wereldkennis internaliseren terwijl ze causaal-temporele restricties naleven, introduceren wij Envision-Score, een holistische metriek die multidimensionale consistentie, physicaliteit en esthetiek integreert. Uitgebreide evaluatie van 15 modellen (10 gespecialiseerde T2I-modellen, 5 verenigde modellen) onthult: gespecialiseerde T2I-modellen tonen vaardigheid in esthetische weergave, maar missen intrinsieke wereldkennis. Verenigde multimodale modellen overbruggen deze kloof en overtreffen consistente gespecialiseerde tegenhangers in causale narratieve coherentie. Desalniettemin blijven zelfs deze verenigde architecturen ondergeschikt aan closed-source modellen en worstelen zij met het overwinnen van de kernuitdaging van ruimtelijk-temporele consistentie. Dit demonstreert dat een focus op causaal geïsoleerde enkele beelden multi-frame redenering en generatie belemmert, waardoor statische patroonherkenning wordt bevorderd boven dynamische wereldmodellering – wat uiteindelijk de internalisatie en generatie van wereldkennis beperkt.
English
Current multimodal models aim to transcend the limitations of single-modality representations by unifying understanding and generation, often using text-to-image (T2I) tasks to calibrate semantic consistency. However, their reliance on static, single-image generation in training and evaluation leads to overfitting to static pattern matching and semantic fusion, while fundamentally hindering their ability to model dynamic processes that unfold over time. To address these constraints, we propose Envision-a causal event progression benchmark for chained text-to-multi-image generation. Grounded in world knowledge and structured by spatiotemporal causality, it reorganizes existing evaluation dimensions and includes 1,000 four-stage prompts spanning six scientific and humanities domains. To transition evaluation from single images to sequential frames and assess whether models truly internalize world knowledge while adhering to causal-temporal constraints, we introduce Envision-Score, a holistic metric integrating multi-dimensional consistency, physicality, and aesthetics. Comprehensive evaluation of 15 models (10 specialized T2I models, 5 unified models) uncovers: specialized T2I models demonstrate proficiency in aesthetic rendering yet lack intrinsic world knowledge. Unified multimodal models bridge this gap, consistently outperforming specialized counterparts in causal narrative coherence. However, even these unified architectures remain subordinate to closed-source models and struggle to overcome the core challenge of spatiotemporal consistency. This demonstrates that a focus on causally-isolated single images impedes multi-frame reasoning and generation, promoting static pattern matching over dynamic world modeling-ultimately limiting world knowledge internalization, generation.