Die Welt ist deine Leinwand: Erzeugung anpassbarer Ereignisse mit Referenzbildern, Trajektorien und Text
The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text
December 18, 2025
papers.authors: Hanlin Wang, Hao Ouyang, Qiuyu Wang, Yue Yu, Yihao Meng, Wen Wang, Ka Leong Cheng, Shuailei Ma, Qingyan Bai, Yixuan Li, Cheng Chen, Yanhong Zeng, Xing Zhu, Yujun Shen, Qifeng Chen
cs.AI
papers.abstract
Wir stellen WorldCanvas vor, einen Framework für promptbare Weltereignisse, der durch die Kombination von Text, Trajektorien und Referenzbildern eine umfangreiche, benutzergeleitete Simulation ermöglicht. Im Gegensatz zu rein textbasierten Ansätzen und bestehenden trajektoriengesteuerten Bild-zu-Video-Methoden kombiniert unser multimodaler Ansatz Trajektorien – die Bewegung, Timing und Sichtbarkeit kodieren – mit natürlicher Sprache für semantische Absicht und Referenzbildern zur visuellen Verankerung von Objektidentität. Dies ermöglicht die Erzeugung kohärenter, steuerbarer Ereignisse, die Multi-Agenten-Interaktionen, Objektein-/austritt, referenzgesteuerte Erscheinung und kontraintuitive Ereignisse umfassen. Die resultierenden Videos zeigen nicht nur zeitliche Kohärenz, sondern auch emergente Konsistenz, indem Objektidentität und Szene trotz temporären Verschwindens erhalten bleiben. Durch die Unterstützung expressiver Weltereignisgenerierung erhebt WorldCanvas Weltmodelle von passiven Prädiktoren zu interaktiven, benutzergeformten Simulatoren. Unsere Projektseite ist verfügbar unter: https://worldcanvas.github.io/.
English
We present WorldCanvas, a framework for promptable world events that enables rich, user-directed simulation by combining text, trajectories, and reference images. Unlike text-only approaches and existing trajectory-controlled image-to-video methods, our multimodal approach combines trajectories -- encoding motion, timing, and visibility -- with natural language for semantic intent and reference images for visual grounding of object identity, enabling the generation of coherent, controllable events that include multi-agent interactions, object entry/exit, reference-guided appearance and counterintuitive events. The resulting videos demonstrate not only temporal coherence but also emergent consistency, preserving object identity and scene despite temporary disappearance. By supporting expressive world events generation, WorldCanvas advances world models from passive predictors to interactive, user-shaped simulators. Our project page is available at: https://worldcanvas.github.io/.