Imagina: Evaluación de la Comprensión y Generación Unificada para Perspectivas sobre Procesos del Mundo Causal
Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights
December 1, 2025
Autores: Juanxi Tian, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan
cs.AI
Resumen
Los modelos multimodales actuales buscan trascender las limitaciones de las representaciones unimodales mediante la unificación de la comprensión y la generación, utilizando a menudo tareas de texto a imagen (T2I) para calibrar la coherencia semántica. Sin embargo, su dependencia de la generación de imágenes estáticas individuales en el entrenamiento y la evaluación conduce a un sobreajuste hacia la coincidencia de patrones estáticos y la fusión semántica, a la vez que obstaculiza fundamentalmente su capacidad para modelar procesos dinámicos que se desarrollan en el tiempo. Para abordar estas limitaciones, proponemos Envision, un benchmark causal de progresión de eventos para la generación encadenada de texto a múltiples imágenes. Fundamentado en conocimiento del mundo y estructurado por causalidad espacio-temporal, reorganiza las dimensiones de evaluación existentes e incluye 1.000 indicaciones de cuatro etapas que abarcan seis dominios científicos y humanísticos. Para transicionar la evaluación de imágenes individuales a secuencias de frames y evaluar si los modelos internalizan verdaderamente el conocimiento del mundo mientras se adhieren a restricciones causal-temporales, introducimos Envision-Score, una métrica holística que integra coherencia multidimensional, fisicalidad y estética. La evaluación exhaustiva de 15 modelos (10 modelos T2I especializados, 5 modelos unificados) revela: los modelos T2I especializados demuestran competencia en renderizado estético pero carecen de conocimiento del mundo intrínseco. Los modelos multimodales unificados salvan esta brecha, superando consistentemente a sus contrapartes especializadas en coherencia narrativa causal. No obstante, incluso estas arquitecturas unificadas permanecen subordinadas a los modelos de código cerrado y luchan por superar el desafío central de la coherencia espacio-temporal. Esto demuestra que un enfoque en imágenes únicas causalmente aisladas impide el razonamiento y la generación multiframe, promoviendo la coincidencia de patrones estáticos sobre el modelado dinámico del mundo, lo que en última instancia limita la internalización y generación del conocimiento del mundo.
English
Current multimodal models aim to transcend the limitations of single-modality representations by unifying understanding and generation, often using text-to-image (T2I) tasks to calibrate semantic consistency. However, their reliance on static, single-image generation in training and evaluation leads to overfitting to static pattern matching and semantic fusion, while fundamentally hindering their ability to model dynamic processes that unfold over time. To address these constraints, we propose Envision-a causal event progression benchmark for chained text-to-multi-image generation. Grounded in world knowledge and structured by spatiotemporal causality, it reorganizes existing evaluation dimensions and includes 1,000 four-stage prompts spanning six scientific and humanities domains. To transition evaluation from single images to sequential frames and assess whether models truly internalize world knowledge while adhering to causal-temporal constraints, we introduce Envision-Score, a holistic metric integrating multi-dimensional consistency, physicality, and aesthetics. Comprehensive evaluation of 15 models (10 specialized T2I models, 5 unified models) uncovers: specialized T2I models demonstrate proficiency in aesthetic rendering yet lack intrinsic world knowledge. Unified multimodal models bridge this gap, consistently outperforming specialized counterparts in causal narrative coherence. However, even these unified architectures remain subordinate to closed-source models and struggle to overcome the core challenge of spatiotemporal consistency. This demonstrates that a focus on causally-isolated single images impedes multi-frame reasoning and generation, promoting static pattern matching over dynamic world modeling-ultimately limiting world knowledge internalization, generation.