ChatPaper.aiChatPaper

新時代におけるビジュアル生成:アトミックマッピングからエージェンシック・ワールドモデリングへの進化

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

April 30, 2026
著者: Keming Wu, Zuhao Yang, Kaichen Zhang, Shizun Wang, Haowei Zhu, Sicong Leng, Zhongyu Yang, Qijie Wang, Sudong Wang, Ziting Wang, Zili Wang, Hui Zhang, Haonan Wang, Hang Zhou, Yifan Pu, Xingxuan Li, Fangneng Zhan, Bo Li, Lidong Bing, Yuxin Song, Ziwei Liu, Wenhu Chen, Jingdong Wang, Xinchao Wang, Xiaojuan Qi, Shijian Lu, Bin Wang
cs.AI

要旨

近年の視覚生成モデルは、写実性、タイポグラフィ、指示追従、対話的編集において大きな進歩を遂げているが、空間推論、状態の持続性、長期的整合性、因果理解には依然として課題を残している。我々は、この分野が単なる見た目の合成を超えて、構造・力学・領域知識・因果関係に基づいた合理的な視覚的表現を生成する「知的視覚生成」へと移行すべきだと主張する。この転換を整理するため、受動的なレンダリングから対話的で主体的、世界を理解する生成器へと進化する5段階の分類体系を提案する:原子生成、条件付き生成、文脈内生成、主体的生成、世界モデル生成。さらに、フローマッチング、理解と生成の統合モデル、改良された視覚表現、事後学習、報酬モデリング、データキュレーション、合成データ蒸留、サンプリング高速化といった主要な技術的推進要因を分析する。現在の評価は知覚的品質を重視する一方で構造的・時間的・因果的失敗を見落とし、進歩を過大評価しがちであることも示す。ベンチマークレビュー、実環境ストレステスト、専門家制約付きケーススタディを組み合わせることで、本ロードマップは次世代の知的視覚生成システムを理解・評価・推進するための能力中心の視点を提供する。
English
Recent visual generation models have made major progress in photorealism, typography, instruction following, and interactive editing, yet they still struggle with spatial reasoning, persistent state, long-horizon consistency, and causal understanding. We argue that the field should move beyond appearance synthesis toward intelligent visual generation: plausible visuals grounded in structure, dynamics, domain knowledge, and causal relations. To frame this shift, we introduce a five-level taxonomy: Atomic Generation, Conditional Generation, In-Context Generation, Agentic Generation, and World-Modeling Generation, progressing from passive renderers to interactive, agentic, world-aware generators. We analyze key technical drivers, including flow matching, unified understanding-and-generation models, improved visual representations, post-training, reward modeling, data curation, synthetic data distillation, and sampling acceleration. We further show that current evaluations often overestimate progress by emphasizing perceptual quality while missing structural, temporal, and causal failures. By combining benchmark review, in-the-wild stress tests, and expert-constrained case studies, this roadmap offers a capability-centered lens for understanding, evaluating, and advancing the next generation of intelligent visual generation systems.
PDF702May 2, 2026