Visuele Generatie in het Nieuwe Tijdperk: Een Evolutie van Atomische Mapping naar Agentisch Wereldmodelleren

Samenvatting

Recente visuele generatiemodellen hebben grote vooruitgang geboekt op het gebied van fotorealisme, typografie, instructievolging en interactieve bewerking, maar ze worstelen nog steeds met ruimtelijk redeneren, persistente toestand, consistentie op lange termijn en causaal begrip. Wij beargumenteren dat het veld zich moet bewegen voorbij het synthetiseren van uiterlijk naar intelligente visuele generatie: geloofwaardige beelden verankerd in structuur, dynamica, domeinkennis en causale relaties. Om deze verschuiving te kaderen, introduceren we een taxonomie met vijf niveaus: Atoomgeneratie, Voorwaardelijke Generatie, In-Context Generatie, Agent-gebaseerde Generatie en Wereldmodellerende Generatie, die evolueert van passieve renderers naar interactieve, agent-gebaseerde, wereldbewuste generators. We analyseren belangrijke technische drijvende krachten, waaronder flow matching, verenigde begrip-en-generatie modellen, verbeterde visuele representaties, post-training, beloningsmodellering, datacuratie, distillatie van synthetische data en samplingversnelling. Verder tonen we aan dat huidige evaluaties de vooruitgang vaak overschatten door de nadruk te leggen op perceptuele kwaliteit terwijl structurele, temporele en causale fouten over het hoofd worden gezien. Door een combinatie van benchmarkreview, stress-tests in de praktijk en expert-gebonden casestudies biedt deze routekaart een capaciteitsgericht perspectief voor het begrijpen, evalueren en bevorderen van de volgende generatie intelligente visuele generatiesystemen.

English

Recent visual generation models have made major progress in photorealism, typography, instruction following, and interactive editing, yet they still struggle with spatial reasoning, persistent state, long-horizon consistency, and causal understanding. We argue that the field should move beyond appearance synthesis toward intelligent visual generation: plausible visuals grounded in structure, dynamics, domain knowledge, and causal relations. To frame this shift, we introduce a five-level taxonomy: Atomic Generation, Conditional Generation, In-Context Generation, Agentic Generation, and World-Modeling Generation, progressing from passive renderers to interactive, agentic, world-aware generators. We analyze key technical drivers, including flow matching, unified understanding-and-generation models, improved visual representations, post-training, reward modeling, data curation, synthetic data distillation, and sampling acceleration. We further show that current evaluations often overestimate progress by emphasizing perceptual quality while missing structural, temporal, and causal failures. By combining benchmark review, in-the-wild stress tests, and expert-constrained case studies, this roadmap offers a capability-centered lens for understanding, evaluating, and advancing the next generation of intelligent visual generation systems.

Visuele Generatie in het Nieuwe Tijdperk: Een Evolutie van Atomische Mapping naar Agentisch Wereldmodelleren

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Samenvatting

Support