Envision: 因果的世界プロセス理解と生成の統合的評価基盤
Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights
December 1, 2025
著者: Juanxi Tian, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan
cs.AI
要旨
現在のマルチモーダルモデルは、単一モダリティ表現の限界を超え、理解と生成を統合することを目指しており、意味的一貫性の較正にテキスト対画像(T2I)タスクを頻繁に利用している。しかし、学習と評価における静的な単一画像生成への依存は、静的なパターンマッチングと意味的融合への過剰適合を招き、時間的経過とともに展開する動的プロセスのモデル化能力を根本的に阻害している。これらの制約に対処するため、我々はEnvisionを提案する。これは連鎖的テキスト対複数画像生成のための因果的事象進行ベンチマークである。世界知識に基盤を置き、時空間的因果関係で構造化されたこのベンチマークは、既存の評価次元を再編成し、6つの科学・人文分野にわたる1,000の四段階プロンプトを含む。評価を単一画像から連続フレームへ移行し、モデルが因果的・時間的制約を遵守しながら真に世界知識を内在化しているかを評価するため、多次元的一貫性、物理性、審美性を統合した総合的指標Envision-Scoreを導入した。15モデル(専門T2Iモデル10、統合モデル5)の包括的評価により以下が明らかになった:専門T2Iモデルは審美的レンダリングに熟達するものの、本質的な世界知識を欠如している。統合マルチモーダルモデルはこの隔たりを埋め、因果的ナラティブの一貫性において専門モデルを一貫して上回る。しかし、これらの統合アーキテクチャでさえクローズドソースモデルに劣り、時空間的一貫性という核心的課題を克服するのに苦戦している。これは、因果的に孤立した単一画像への注力が、多フレーム推論と生成を妨げ、動的世界モデリングよりも静的なパターンマッチングを促進し、最終的に世界知識の内在化と生成を制限していることを実証している。
English
Current multimodal models aim to transcend the limitations of single-modality representations by unifying understanding and generation, often using text-to-image (T2I) tasks to calibrate semantic consistency. However, their reliance on static, single-image generation in training and evaluation leads to overfitting to static pattern matching and semantic fusion, while fundamentally hindering their ability to model dynamic processes that unfold over time. To address these constraints, we propose Envision-a causal event progression benchmark for chained text-to-multi-image generation. Grounded in world knowledge and structured by spatiotemporal causality, it reorganizes existing evaluation dimensions and includes 1,000 four-stage prompts spanning six scientific and humanities domains. To transition evaluation from single images to sequential frames and assess whether models truly internalize world knowledge while adhering to causal-temporal constraints, we introduce Envision-Score, a holistic metric integrating multi-dimensional consistency, physicality, and aesthetics. Comprehensive evaluation of 15 models (10 specialized T2I models, 5 unified models) uncovers: specialized T2I models demonstrate proficiency in aesthetic rendering yet lack intrinsic world knowledge. Unified multimodal models bridge this gap, consistently outperforming specialized counterparts in causal narrative coherence. However, even these unified architectures remain subordinate to closed-source models and struggle to overcome the core challenge of spatiotemporal consistency. This demonstrates that a focus on causally-isolated single images impedes multi-frame reasoning and generation, promoting static pattern matching over dynamic world modeling-ultimately limiting world knowledge internalization, generation.