Simulando o Mundo Visual com Inteligência Artificial: Um Roteiro

Resumo

O cenário da geração de vídeo está em transformação, evoluindo do foco na criação de clipes visualmente atraentes para a construção de ambientes virtuais que suportam interação e mantêm plausibilidade física. Esses avanços apontam para o surgimento de modelos de base para vídeo que funcionam não apenas como geradores visuais, mas também como modelos implícitos do mundo – modelos que simulam a dinâmica física, as interações agente-ambiente e o planejamento de tarefas que governam mundos reais ou imaginados. Este estudo fornece uma visão sistemática dessa evolução, conceptualizando os modelos modernos de base para vídeo como a combinação de dois componentes centrais: um modelo implícito do mundo e um renderizador de vídeo. O modelo do mundo codifica conhecimento estruturado sobre o mundo, incluindo leis físicas, dinâmicas de interação e comportamento de agentes. Ele funciona como um motor de simulação latente que permite raciocínio visual coerente, consistência temporal de longo prazo e planejamento orientado a objetivos. O renderizador de vídeo transforma essa simulação latente em observações visuais realistas, produzindo efetivamente vídeos como uma "janela" para o mundo simulado. Traçamos a progressão da geração de vídeo através de quatro gerações, nas quais as capacidades centrais avançam passo a passo, culminando finalmente em um modelo do mundo, construído sobre um modelo de geração de vídeo, que incorpora plausibilidade física intrínseca, interação multimodal em tempo real e capacidades de planejamento abrangendo múltiplas escalas espaço-temporais. Para cada geração, definimos suas características principais, destacamos trabalhos representativos e examinamos seus domínios de aplicação, como robótica, condução autónoma e jogos interativos. Finalmente, discutimos desafios em aberto e princípios de design para modelos do mundo de próxima geração, incluindo o papel da inteligência do agente na moldagem e avaliação desses sistemas. Uma lista atualizada de trabalhos relacionados é mantida neste link.

English

The landscape of video generation is shifting, from a focus on generating visually appealing clips to building virtual environments that support interaction and maintain physical plausibility. These developments point toward the emergence of video foundation models that function not only as visual generators but also as implicit world models, models that simulate the physical dynamics, agent-environment interactions, and task planning that govern real or imagined worlds. This survey provides a systematic overview of this evolution, conceptualizing modern video foundation models as the combination of two core components: an implicit world model and a video renderer. The world model encodes structured knowledge about the world, including physical laws, interaction dynamics, and agent behavior. It serves as a latent simulation engine that enables coherent visual reasoning, long-term temporal consistency, and goal-driven planning. The video renderer transforms this latent simulation into realistic visual observations, effectively producing videos as a "window" into the simulated world. We trace the progression of video generation through four generations, in which the core capabilities advance step by step, ultimately culminating in a world model, built upon a video generation model, that embodies intrinsic physical plausibility, real-time multimodal interaction, and planning capabilities spanning multiple spatiotemporal scales. For each generation, we define its core characteristics, highlight representative works, and examine their application domains such as robotics, autonomous driving, and interactive gaming. Finally, we discuss open challenges and design principles for next-generation world models, including the role of agent intelligence in shaping and evaluating these systems. An up-to-date list of related works is maintained at this link.

Simulando o Mundo Visual com Inteligência Artificial: Um Roteiro

Simulating the Visual World with Artificial Intelligence: A Roadmap

Resumo

Support