Geração Visual na Nova Era: Uma Evolução do Mapeamento Atômico para a Modelagem de Mundo por Agentes

Resumo

Os modelos visuais de geração recentes fizeram progressos significativos em foto-realismo, tipografia, seguimento de instruções e edição interativa, mas ainda lutam com raciocínio espacial, estado persistente, consistência de longo prazo e compreensão causal. Argumentamos que a área deve evoluir além da síntese de aparência em direção à geração visual inteligente: elementos visuais plausíveis fundamentados em estrutura, dinâmica, conhecimento de domínio e relações causais. Para estruturar essa transição, introduzimos uma taxonomia de cinco níveis: Geração Atômica, Geração Condicional, Geração em Contexto, Geração Agente e Geração com Modelagem de Mundo, progredindo de renderizadores passivos para geradores interativos, agentes e conscientes do mundo. Analisamos os principais impulsionadores técnicos, incluindo correspondência de fluxo, modelos unificados de compreensão e geração, representações visuais aprimoradas, pós-treinamento, modelagem de recompensa, curadoria de dados, destilação de dados sintéticos e aceleração de amostragem. Mostramos ainda que as avaliações atuais frequentemente superestimam o progresso ao enfatizar a qualidade perceptual enquanto ignoram falhas estruturais, temporais e causais. Ao combinar revisão de benchmarks, testes de estresse em ambiente real e estudos de caso com restrições de especialistas, este roteiro oferece uma lente centrada em capacidades para compreender, avaliar e avançar a próxima geração de sistemas inteligentes de geração visual.

English

Recent visual generation models have made major progress in photorealism, typography, instruction following, and interactive editing, yet they still struggle with spatial reasoning, persistent state, long-horizon consistency, and causal understanding. We argue that the field should move beyond appearance synthesis toward intelligent visual generation: plausible visuals grounded in structure, dynamics, domain knowledge, and causal relations. To frame this shift, we introduce a five-level taxonomy: Atomic Generation, Conditional Generation, In-Context Generation, Agentic Generation, and World-Modeling Generation, progressing from passive renderers to interactive, agentic, world-aware generators. We analyze key technical drivers, including flow matching, unified understanding-and-generation models, improved visual representations, post-training, reward modeling, data curation, synthetic data distillation, and sampling acceleration. We further show that current evaluations often overestimate progress by emphasizing perceptual quality while missing structural, temporal, and causal failures. By combining benchmark review, in-the-wild stress tests, and expert-constrained case studies, this roadmap offers a capability-centered lens for understanding, evaluating, and advancing the next generation of intelligent visual generation systems.

Geração Visual na Nova Era: Uma Evolução do Mapeamento Atômico para a Modelagem de Mundo por Agentes

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Resumo

Support