Génération visuelle dans la nouvelle ère : une évolution de la cartographie atomique vers la modélisation agentique du monde

Résumé

Les modèles récents de génération visuelle ont accompli des progrès majeurs en photoréalisme, typographie, suivi d'instructions et édition interactive, mais ils peinent encore avec le raisonnement spatial, l'état persistant, la cohérence à long terme et la compréhension causale. Nous soutenons que le domaine devrait dépasser la synthèse d'apparence pour évoluer vers une génération visuelle intelligente : des visuels plausibles ancrés dans la structure, la dynamique, les connaissances du domaine et les relations causales. Pour cadrer cette transition, nous introduisons une taxonomie à cinq niveaux : Génération Atomique, Génération Conditionnelle, Génération en Contexte, Génération Agentique et Génération par Modélisation du Monde, progressant de moteurs de rendu passifs à des générateurs interactifs, agentiques et conscients de l'environnement. Nous analysons les moteurs techniques clés, incluant l'appariement de flux, les modèles unifiés de compréhension et de génération, l'amélioration des représentations visuelles, le post-entraînement, la modélisation de récompenses, la curation des données, la distillation de données synthétiques et l'accélération de l'échantillonnage. Nous démontrons en outre que les évaluations actuelles surestiment souvent les progrès en privilégiant la qualité perceptuelle tout en occultant les échecs structurels, temporels et causaux. En combinant une revue des benchmarks, des tests de stress en conditions réelles et des études de cas contraintes par des experts, cette feuille de route offre une perspective centrée sur les capacités pour comprendre, évaluer et faire progresser la prochaine génération de systèmes de génération visuelle intelligente.

English

Recent visual generation models have made major progress in photorealism, typography, instruction following, and interactive editing, yet they still struggle with spatial reasoning, persistent state, long-horizon consistency, and causal understanding. We argue that the field should move beyond appearance synthesis toward intelligent visual generation: plausible visuals grounded in structure, dynamics, domain knowledge, and causal relations. To frame this shift, we introduce a five-level taxonomy: Atomic Generation, Conditional Generation, In-Context Generation, Agentic Generation, and World-Modeling Generation, progressing from passive renderers to interactive, agentic, world-aware generators. We analyze key technical drivers, including flow matching, unified understanding-and-generation models, improved visual representations, post-training, reward modeling, data curation, synthetic data distillation, and sampling acceleration. We further show that current evaluations often overestimate progress by emphasizing perceptual quality while missing structural, temporal, and causal failures. By combining benchmark review, in-the-wild stress tests, and expert-constrained case studies, this roadmap offers a capability-centered lens for understanding, evaluating, and advancing the next generation of intelligent visual generation systems.

Génération visuelle dans la nouvelle ère : une évolution de la cartographie atomique vers la modélisation agentique du monde

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Résumé

Support