ChatPaper.aiChatPaper

Envision : Évaluation de la compréhension et de la génération unifiées pour l'analyse des processus causaux du monde

Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights

December 1, 2025
papers.authors: Juanxi Tian, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan
cs.AI

papers.abstract

Les modèles multimodaux actuels visent à transcender les limitations des représentations unimodales en unifiant la compréhension et la génération, utilisant souvent les tâches texte-image (T2I) pour calibrer la cohérence sémantique. Cependant, leur dépendance à la génération d'images statiques uniques lors de l'entraînement et de l'évaluation conduit à un surapprentissage du couplage de motifs statiques et de la fusion sémantique, tout en entravant fondamentalement leur capacité à modéliser les processus dynamiques qui se déroulent dans le temps. Pour répondre à ces contraintes, nous proposons Envision - un benchmark de progression événementielle causale pour la génération chaînée de texte vers multiples images. Ancré dans la connaissance du monde et structuré par la causalité spatiotemporelle, il réorganise les dimensions d'évaluation existantes et inclut 1 000 prompts en quatre étapes couvrant six domaines scientifiques et humains. Pour faire passer l'évaluation des images uniques aux séquences d'images et évaluer si les modèles internalisent véritablement les connaissances mondiales tout en respectant les contraintes causales-temporelles, nous introduisons Envision-Score, une métrique holistique intégrant la cohérence multidimensionnelle, la physicalité et l'esthétique. L'évaluation complète de 15 modèles (10 modèles T2I spécialisés, 5 modèles unifiés) révèle que : les modèles T2I spécialisés démontrent une compétence en rendu esthétique mais manquent de connaissances mondiales intrinsèques. Les modèles multimodaux unifiés comblent cet écart, surpassant systématiquement leurs homologues spécialisés en cohérence narrative causale. Cependant, même ces architectures unifiées restent inférieures aux modèles propriétaires et peinent à surmonter le défi fondamental de la cohérence spatiotemporelle. Cela démontre qu'une focalisation sur les images uniques causalement isolées entrave le raisonnement et la génération multiframes, favorisant le couplage de motifs statiques plutôt que la modélisation du monde dynamique - limitant finalement l'internalisation des connaissances mondiales et la génération.
English
Current multimodal models aim to transcend the limitations of single-modality representations by unifying understanding and generation, often using text-to-image (T2I) tasks to calibrate semantic consistency. However, their reliance on static, single-image generation in training and evaluation leads to overfitting to static pattern matching and semantic fusion, while fundamentally hindering their ability to model dynamic processes that unfold over time. To address these constraints, we propose Envision-a causal event progression benchmark for chained text-to-multi-image generation. Grounded in world knowledge and structured by spatiotemporal causality, it reorganizes existing evaluation dimensions and includes 1,000 four-stage prompts spanning six scientific and humanities domains. To transition evaluation from single images to sequential frames and assess whether models truly internalize world knowledge while adhering to causal-temporal constraints, we introduce Envision-Score, a holistic metric integrating multi-dimensional consistency, physicality, and aesthetics. Comprehensive evaluation of 15 models (10 specialized T2I models, 5 unified models) uncovers: specialized T2I models demonstrate proficiency in aesthetic rendering yet lack intrinsic world knowledge. Unified multimodal models bridge this gap, consistently outperforming specialized counterparts in causal narrative coherence. However, even these unified architectures remain subordinate to closed-source models and struggle to overcome the core challenge of spatiotemporal consistency. This demonstrates that a focus on causally-isolated single images impedes multi-frame reasoning and generation, promoting static pattern matching over dynamic world modeling-ultimately limiting world knowledge internalization, generation.
PDF812December 3, 2025