Generazione Visiva nella Nuova Era: Un'evoluzione dalla Mappatura Atomica alla Modellazione Agente del Mondo

Abstract

I recenti modelli di generazione visiva hanno compiuto progressi significativi nel foto-realismo, nella tipografia, nel seguire istruzioni e nell'editing interattivo, ma continuano a lottare con il ragionamento spaziale, lo stato persistente, la coerenza di lungo periodo e la comprensione causale. Sosteniamo che il campo dovrebbe evolvere oltre la sintesi dell'aspetto verso una generazione visiva intelligente: contenuti visivi plausibili ancorati a struttura, dinamiche, conoscenza di dominio e relazioni causali. Per inquadrare questo cambiamento, introduciamo una tassonomia a cinque livelli: Generazione Atomica, Generazione Condizionata, Generazione In-Contesto, Generazione Agente e Generazione con Modelli del Mondo, che progrediscono da renderer passivi a generatori interattivi, agentici e consapevoli del contesto. Analizziamo i principali driver tecnologici, inclusi il flow matching, i modelli unificati di comprensione e generazione, rappresentazioni visive migliorate, post-training, modellazione delle ricompense, cura dei dati, distillazione di dati sintetici e accelerazione del campionamento. Mostriamo inoltre che le valutazioni attuali spesso sovrastimano i progressi enfatizzando la qualità percettiva mentre trascurano i fallimenti strutturali, temporali e causali. Combinando una revisione dei benchmark, stress test in ambienti reali e studi di caso vincolati da esperti, questa roadmap offre una lente centrata sulle capacità per comprendere, valutare e far avanzare la prossima generazione di sistemi intelligenti di generazione visiva.

English

Recent visual generation models have made major progress in photorealism, typography, instruction following, and interactive editing, yet they still struggle with spatial reasoning, persistent state, long-horizon consistency, and causal understanding. We argue that the field should move beyond appearance synthesis toward intelligent visual generation: plausible visuals grounded in structure, dynamics, domain knowledge, and causal relations. To frame this shift, we introduce a five-level taxonomy: Atomic Generation, Conditional Generation, In-Context Generation, Agentic Generation, and World-Modeling Generation, progressing from passive renderers to interactive, agentic, world-aware generators. We analyze key technical drivers, including flow matching, unified understanding-and-generation models, improved visual representations, post-training, reward modeling, data curation, synthetic data distillation, and sampling acceleration. We further show that current evaluations often overestimate progress by emphasizing perceptual quality while missing structural, temporal, and causal failures. By combining benchmark review, in-the-wild stress tests, and expert-constrained case studies, this roadmap offers a capability-centered lens for understanding, evaluating, and advancing the next generation of intelligent visual generation systems.

Generazione Visiva nella Nuova Era: Un'evoluzione dalla Mappatura Atomica alla Modellazione Agente del Mondo

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Abstract

Support