ChatPaper.aiChatPaper

상상해 보세요: 인과적 세계 과정 통찰을 위한 통합 이해 및 생성 벤치마킹

Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights

December 1, 2025
저자: Juanxi Tian, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan
cs.AI

초록

현재 다중모달 모델은 단일 양식 표현의 한계를 극복하고 이해와 생성을 통일하기 위해 노력하며, 의미론적 일관성을 보정하는 도구로 텍스트-이미지(T2I) 생성 과제를 자주 활용합니다. 그러나 훈련 및 평가 과정에서 정적 단일 이미지 생성에 의존함으로써 정적인 패턴 매칭과 의미 융합에 과적합되는 동시에, 시간에 따라 전개되는 동적 과정을 모델링하는 능력이 근본적으로 제한됩니다. 이러한 한계를 해결하기 위해 우리는 인과적 사건 진행 벤치마크인 Envision을 제안합니다. 이는 세계 지식에 기반하고 시공간적 인과관계로 구조화되어, 기존 평가 차원을 재구성하고 6개의 과학 및 인문학 분야에 걸친 1,000개의 4단계 프롬프트를 포함합니다. 평가를 단일 이미지에서 순차적 프레임으로 전환하고 모델이 인과-시간적 제약을 준수하면서 진정으로 세계 지식을 내재화하는지 평가하기 위해 다차원적 일관성, 물리적 타당성, 미적 요소를 통합한 종합 지표인 Envision-Score를 도입했습니다. 15개 모델(전문 T2I 모델 10종, 통합 모델 5종)에 대한 포괄적 평가 결과는 다음과 같습니다. 전문 T2I 모델은 미적 렌더링에서는 능숙하나 본질적인 세계 지식이 부족합니다. 통합 다중모달 모델은 이 격차를 줄이며 인과적 서사 일관성에서 전문 모델을 꾸준히 앞섰습니다. 그러나 이러한 통합 아키텍처조차도 클로즈드소스 모델에는 미치지 못하며 시공간 일관성이라는 핵심 과제를 극복하지 못했습니다. 이는 인과적으로 고립된 단일 이미지에 집중하는 것이 다중 프레임 추론 및 생성을 저해하고, 동적 세계 모델링보다 정적 패턴 매칭을 촉진함으로써 궁극적으로 세계 지식의 내재화와 생성을 제한함을 보여줍니다.
English
Current multimodal models aim to transcend the limitations of single-modality representations by unifying understanding and generation, often using text-to-image (T2I) tasks to calibrate semantic consistency. However, their reliance on static, single-image generation in training and evaluation leads to overfitting to static pattern matching and semantic fusion, while fundamentally hindering their ability to model dynamic processes that unfold over time. To address these constraints, we propose Envision-a causal event progression benchmark for chained text-to-multi-image generation. Grounded in world knowledge and structured by spatiotemporal causality, it reorganizes existing evaluation dimensions and includes 1,000 four-stage prompts spanning six scientific and humanities domains. To transition evaluation from single images to sequential frames and assess whether models truly internalize world knowledge while adhering to causal-temporal constraints, we introduce Envision-Score, a holistic metric integrating multi-dimensional consistency, physicality, and aesthetics. Comprehensive evaluation of 15 models (10 specialized T2I models, 5 unified models) uncovers: specialized T2I models demonstrate proficiency in aesthetic rendering yet lack intrinsic world knowledge. Unified multimodal models bridge this gap, consistently outperforming specialized counterparts in causal narrative coherence. However, even these unified architectures remain subordinate to closed-source models and struggle to overcome the core challenge of spatiotemporal consistency. This demonstrates that a focus on causally-isolated single images impedes multi-frame reasoning and generation, promoting static pattern matching over dynamic world modeling-ultimately limiting world knowledge internalization, generation.
PDF812December 3, 2025