Визуальное поколение в новую эру: эволюция от атомарного картирования до агентного моделирования мира

Аннотация

Современные модели визуальной генерации достигли значительного прогресса в реалистичности изображений, работе с типографикой, следовании инструкциям и интерактивном редактировании, однако по-прежнему испытывают трудности с пространственным мышлением, сохранением состояния, долгосрочной согласованностью и каузальным пониманием. Мы утверждаем, что области следует выйти за рамки синтеза внешнего вида и перейти к интеллектуальной визуальной генерации: правдоподобным визуальным представлениям, основанным на структуре, динамике, предметных знаниях и причинно-следственных связях. Для описания этого перехода мы предлагаем пятиуровневую таксономию: Атомарная генерация, Условная генерация, Контекстная генерация, Агентная генерация и Генерация на основе моделей мира — от пассивных рендереров к интерактивным, агентным и осознающим окружение системам. Мы анализируем ключевые технологические драйверы, включая сопоставление потоков, унифицированные модели понимания и генерации, улучшенные визуальные представления, дообучение, моделирование вознаграждений, курацию данных, дистилляцию синтетических данных и ускорение семплинга. Кроме того, мы демонстрируем, что современные методы оценки часто переоценивают прогресс, акцентируя перцептивное качество, но упуская структурные, временные и каузальные ошибки. Объединяя обзор бенчмарков, стресс-тесты в реальных условиях и экспертные кейс-стади, данная дорожная карта предлагает ориентированный на возможности подход для понимания, оценки и развития следующего поколения систем интеллектуальной визуальной генерации.

English

Recent visual generation models have made major progress in photorealism, typography, instruction following, and interactive editing, yet they still struggle with spatial reasoning, persistent state, long-horizon consistency, and causal understanding. We argue that the field should move beyond appearance synthesis toward intelligent visual generation: plausible visuals grounded in structure, dynamics, domain knowledge, and causal relations. To frame this shift, we introduce a five-level taxonomy: Atomic Generation, Conditional Generation, In-Context Generation, Agentic Generation, and World-Modeling Generation, progressing from passive renderers to interactive, agentic, world-aware generators. We analyze key technical drivers, including flow matching, unified understanding-and-generation models, improved visual representations, post-training, reward modeling, data curation, synthetic data distillation, and sampling acceleration. We further show that current evaluations often overestimate progress by emphasizing perceptual quality while missing structural, temporal, and causal failures. By combining benchmark review, in-the-wild stress tests, and expert-constrained case studies, this roadmap offers a capability-centered lens for understanding, evaluating, and advancing the next generation of intelligent visual generation systems.

Визуальное поколение в новую эру: эволюция от атомарного картирования до агентного моделирования мира

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Аннотация

Support