ChatPaper.aiChatPaper

O Mundo é a Sua Tela: Pintando Eventos Acionáveis com Imagens de Referência, Trajetórias e Texto

The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

December 18, 2025
Autores: Hanlin Wang, Hao Ouyang, Qiuyu Wang, Yue Yu, Yihao Meng, Wen Wang, Ka Leong Cheng, Shuailei Ma, Qingyan Bai, Yixuan Li, Cheng Chen, Yanhong Zeng, Xing Zhu, Yujun Shen, Qifeng Chen
cs.AI

Resumo

Apresentamos o WorldCanvas, uma estrutura para eventos mundiais acionáveis por instruções que permite simulações ricas e orientadas pelo usuário, combinando texto, trajetórias e imagens de referência. Diferente de abordagens baseadas apenas em texto e dos métodos existentes de controle por trajetória em vídeos a partir de imagens, nossa abordagem multimodal combina trajetórias – que codificam movimento, tempo e visibilidade – com linguagem natural para intenção semântica e imagens de referência para ancoragem visual da identidade do objeto. Isso possibilita a geração de eventos coerentes e controláveis que incluem interações multiagente, entrada/saída de objetos, aparência guiada por referência e eventos contraintuitivos. Os vídeos resultantes demonstram não apenas coerência temporal, mas também consistência emergente, preservando a identidade do objeto e a cena apesar de desaparecimentos temporários. Ao suportar a geração expressiva de eventos mundiais, o WorldCanvas avança os modelos de mundo de preditores passivos para simuladores interativos moldados pelo usuário. Nossa página do projeto está disponível em: https://worldcanvas.github.io/.
English
We present WorldCanvas, a framework for promptable world events that enables rich, user-directed simulation by combining text, trajectories, and reference images. Unlike text-only approaches and existing trajectory-controlled image-to-video methods, our multimodal approach combines trajectories -- encoding motion, timing, and visibility -- with natural language for semantic intent and reference images for visual grounding of object identity, enabling the generation of coherent, controllable events that include multi-agent interactions, object entry/exit, reference-guided appearance and counterintuitive events. The resulting videos demonstrate not only temporal coherence but also emergent consistency, preserving object identity and scene despite temporary disappearance. By supporting expressive world events generation, WorldCanvas advances world models from passive predictors to interactive, user-shaped simulators. Our project page is available at: https://worldcanvas.github.io/.
PDF272February 27, 2026