Immagina: Valutazione della Comprensione Unificata e della Generazione per Approfondimenti sui Processi Causali Mondiali
Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights
December 1, 2025
Autori: Juanxi Tian, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan
cs.AI
Abstract
I modelli multimodali attuali mirano a superare le limitazioni delle rappresentazioni unimodali unificando comprensione e generazione, utilizzando spesso compiti text-to-image (T2I) per calibrare la coerenza semantica. Tuttavia, la loro dipendenza dalla generazione di immagini statiche e singole nell'addestramento e nella valutazione porta a un overfitting verso il pattern matching statico e la fusione semantica, limitando fondamentalmente la loro capacità di modellare processi dinamici che si svolgono nel tempo. Per affrontare questi vincoli, proponiamo Envision, un benchmark causale di progressione eventi per la generazione concatenata di testo a immagini multiple. Basato sulla conoscenza del mondo e strutturato dalla causalità spaziotemporale, riorganizza le dimensioni valutative esistenti e include 1.000 prompt a quattro fasi che abbracciano sei domini scientifici e umanistici. Per spostare la valutazione da immagini singole a frame sequenziali e valutare se i modelli interiorizzano veramente la conoscenza del mondo rispettando i vincoli causali-temporali, introduciamo Envision-Score, una metrica olistica che integra coerenza multidimensionale, fisicità ed estetica. La valutazione completa di 15 modelli (10 modelli T2I specializzati, 5 modelli unificati) rivela: i modelli T2I specializzati dimostrano competenza nel rendering estetico ma mancano di conoscenza intrinseca del mondo. I modelli multimodali unificati colmano questa lacuna, superando costantemente le controparti specializzate nella coerenza narrativa causale. Tuttavia, anche queste architetture unificate rimangono subordinate ai modelli closed-source e faticano a superare la sfida principale della coerenza spaziotemporale. Ciò dimostra che un focus su immagini singole causalmente isolate ostacola il ragionamento e la generazione multi-frame, promuovendo il pattern matching statico rispetto alla modellazione dinamica del mondo, limitando in definitiva l'interiorizzazione della conoscenza mondiale e la generazione.
English
Current multimodal models aim to transcend the limitations of single-modality representations by unifying understanding and generation, often using text-to-image (T2I) tasks to calibrate semantic consistency. However, their reliance on static, single-image generation in training and evaluation leads to overfitting to static pattern matching and semantic fusion, while fundamentally hindering their ability to model dynamic processes that unfold over time. To address these constraints, we propose Envision-a causal event progression benchmark for chained text-to-multi-image generation. Grounded in world knowledge and structured by spatiotemporal causality, it reorganizes existing evaluation dimensions and includes 1,000 four-stage prompts spanning six scientific and humanities domains. To transition evaluation from single images to sequential frames and assess whether models truly internalize world knowledge while adhering to causal-temporal constraints, we introduce Envision-Score, a holistic metric integrating multi-dimensional consistency, physicality, and aesthetics. Comprehensive evaluation of 15 models (10 specialized T2I models, 5 unified models) uncovers: specialized T2I models demonstrate proficiency in aesthetic rendering yet lack intrinsic world knowledge. Unified multimodal models bridge this gap, consistently outperforming specialized counterparts in causal narrative coherence. However, even these unified architectures remain subordinate to closed-source models and struggle to overcome the core challenge of spatiotemporal consistency. This demonstrates that a focus on causally-isolated single images impedes multi-frame reasoning and generation, promoting static pattern matching over dynamic world modeling-ultimately limiting world knowledge internalization, generation.