ChatPaper.aiChatPaper

Представьте: Оценка унифицированного понимания и генерации для получения инсайтов о причинно-следственных процессах в мире

Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights

December 1, 2025
Авторы: Juanxi Tian, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan
cs.AI

Аннотация

Современные мультимодальные модели стремятся преодолеть ограничения одномодальных представлений через унификацию понимания и генерации, часто используя задачи "текст-изображение" (T2I) для калибровки семантической согласованности. Однако их зависимость от статической генерации одиночных изображений на этапах обучения и оценки приводит к переобучению на статическое паттернное сопоставление и семантическое слияние, что фундаментально ограничивает их способность моделировать динамические процессы, разворачивающиеся во времени. Для преодоления этих ограничений мы предлагаем Envision — бенчмарк каузальной прогрессии событий для цепочечной генерации "текст-много изображений". Основанный на знаниях о мире и структурированный по принципу пространственно-временной причинности, он реорганизует существующие оценочные измерения и включает 1000 четырёхэтапных промптов, охватывающих шесть научных и гуманитарных областей. Для перехода от оценки одиночных изображений к последовательным кадрам и анализа того, действительно ли модели усваивают знания о мире с соблюдением каузально-временных ограничений, мы вводим Envision-Score — комплексную метрику, интегрирующую многомерную согласованность, физическую достоверность и эстетику. Всесторонняя оценка 15 моделей (10 специализированных T2I-моделей, 5 унифицированных моделей) выявила: специализированные T2I-модели демонстрируют мастерство в эстетическом рендеринге, но испытывают недостаток внутренних знаний о мире. Унифицированные мультимодальные модели устраняют этот разрыв, стабильно превосходя специализированные аналоги по каузальной нарративной связности. Однако даже эти унифицированные архитектуры остаются слабее закрытых моделей и не способны преодолеть ключевую проблему пространственно-временной согласованности. Это доказывает, что фокус на каузально-изолированных одиночных изображениях препятствует многофреймовому мышлению и генерации, поощряя статическое паттернное сопоставление в ущерб моделированию динамического мира — что в конечном счёте ограничивает усвоение и генерацию знаний о мире.
English
Current multimodal models aim to transcend the limitations of single-modality representations by unifying understanding and generation, often using text-to-image (T2I) tasks to calibrate semantic consistency. However, their reliance on static, single-image generation in training and evaluation leads to overfitting to static pattern matching and semantic fusion, while fundamentally hindering their ability to model dynamic processes that unfold over time. To address these constraints, we propose Envision-a causal event progression benchmark for chained text-to-multi-image generation. Grounded in world knowledge and structured by spatiotemporal causality, it reorganizes existing evaluation dimensions and includes 1,000 four-stage prompts spanning six scientific and humanities domains. To transition evaluation from single images to sequential frames and assess whether models truly internalize world knowledge while adhering to causal-temporal constraints, we introduce Envision-Score, a holistic metric integrating multi-dimensional consistency, physicality, and aesthetics. Comprehensive evaluation of 15 models (10 specialized T2I models, 5 unified models) uncovers: specialized T2I models demonstrate proficiency in aesthetic rendering yet lack intrinsic world knowledge. Unified multimodal models bridge this gap, consistently outperforming specialized counterparts in causal narrative coherence. However, even these unified architectures remain subordinate to closed-source models and struggle to overcome the core challenge of spatiotemporal consistency. This demonstrates that a focus on causally-isolated single images impedes multi-frame reasoning and generation, promoting static pattern matching over dynamic world modeling-ultimately limiting world knowledge internalization, generation.
PDF812December 3, 2025