ChatPaper.aiChatPaper

Visuelle Generierung im neuen Zeitalter: Eine Evolution von atomarer Abbildung zu agentenbasierter Weltmodellierung

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

April 30, 2026
Autoren: Keming Wu, Zuhao Yang, Kaichen Zhang, Shizun Wang, Haowei Zhu, Sicong Leng, Zhongyu Yang, Qijie Wang, Sudong Wang, Ziting Wang, Zili Wang, Hui Zhang, Haonan Wang, Hang Zhou, Yifan Pu, Xingxuan Li, Fangneng Zhan, Bo Li, Lidong Bing, Yuxin Song, Ziwei Liu, Wenhu Chen, Jingdong Wang, Xinchao Wang, Xiaojuan Qi, Shijian Lu, Bin Wang
cs.AI

Zusammenfassung

Aktuelle visuelle Generierungsmodelle haben bedeutende Fortschritte in Bezug auf Fotorealismus, Typografie, Befolgung von Anweisungen und interaktive Bearbeitung erzielt, doch sie kämpfen nach wie vor mit räumlichem Denkvermögen, persistentem Zustand, langfristiger Konsistenz und kausalem Verständnis. Wir vertreten die Auffassung, dass sich das Feld über die reine Erscheinungssynthese hinaus hin zu einer intelligenten visuellen Generierung bewegen sollte: plausiblen visuellen Inhalten, die in Struktur, Dynamik, Domänenwissen und kausalen Beziehungen verankert sind. Um diesen Wandel zu systematisieren, führen wir eine fünfstufige Taxonomie ein: Atomare Generierung, Konditionale Generierung, In-Kontext-Generierung, Agentenbasierte Generierung und Weltmodell-Generierung, die sich von passiven Renderern hin zu interaktiven, agentenbasierten, weltbewussten Generatoren entwickelt. Wir analysieren wichtige technologische Treiber, darunter Flow Matching, vereinheitlichte Verstehens- und Generierungsmodelle, verbesserte visuelle Repräsentationen, Post-Training, Reward-Modellierung, Datenkuratierung, synthetische Datendistillation und Beschleunigung des Samplings. Des Weiteren zeigen wir, dass aktuelle Evaluierungen den Fortschritt oft überschätzen, indem sie die perceptuelle Qualität betonen, während strukturelle, temporale und kausale Fehler unberücksichtigt bleiben. Durch die Kombination von Benchmark-Analysen, Stresstests unter realen Bedingungen und expertenbeschränkten Fallstudien bietet diese Roadmap eine fähigkeitszentrierte Perspektive zum Verständnis, zur Bewertung und zur Weiterentwicklung der nächsten Generation intelligenter visueller Generierungssysteme.
English
Recent visual generation models have made major progress in photorealism, typography, instruction following, and interactive editing, yet they still struggle with spatial reasoning, persistent state, long-horizon consistency, and causal understanding. We argue that the field should move beyond appearance synthesis toward intelligent visual generation: plausible visuals grounded in structure, dynamics, domain knowledge, and causal relations. To frame this shift, we introduce a five-level taxonomy: Atomic Generation, Conditional Generation, In-Context Generation, Agentic Generation, and World-Modeling Generation, progressing from passive renderers to interactive, agentic, world-aware generators. We analyze key technical drivers, including flow matching, unified understanding-and-generation models, improved visual representations, post-training, reward modeling, data curation, synthetic data distillation, and sampling acceleration. We further show that current evaluations often overestimate progress by emphasizing perceptual quality while missing structural, temporal, and causal failures. By combining benchmark review, in-the-wild stress tests, and expert-constrained case studies, this roadmap offers a capability-centered lens for understanding, evaluating, and advancing the next generation of intelligent visual generation systems.
PDF702May 2, 2026