De Wereld is Jouw Canvas: Promptbare Gebeurtenissen Schilderen met Referentiebeelden, Trajecten en Tekst
The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text
December 18, 2025
Auteurs: Hanlin Wang, Hao Ouyang, Qiuyu Wang, Yue Yu, Yihao Meng, Wen Wang, Ka Leong Cheng, Shuailei Ma, Qingyan Bai, Yixuan Li, Cheng Chen, Yanhong Zeng, Xing Zhu, Yujun Shen, Qifeng Chen
cs.AI
Samenvatting
Wij presenteren WorldCanvas, een raamwerk voor promptbare wereldgebeurtenissen dat rijke, door de gebruiker gestuurde simulatie mogelijk maakt door tekst, trajecten en referentiebeelden te combineren. In tegenstelling tot uitsluitend tekstgebaseerde benaderingen en bestaande traject-gestuurde beeld-naar-video methoden, combineert onze multimodale aanpak trajecten – die beweging, timing en zichtbaarheid coderen – met natuurlijke taal voor semantische intentie en referentiebeelden voor visuele verankering van objectidentiteit. Dit maakt de generatie van samenhangende, bestuurbare gebeurtenissen mogelijk, waaronder multi-agent interacties, objectinvoer/uitvoer, referentie-gestuurd uiterlijk en contra-intuïtieve gebeurtenissen. De resulterende video's tonen niet alleen temporele coherentie, maar ook emergentie van consistentie, waarbij objectidentiteit en scène behouden blijven ondanks tijdelijke verdwijning. Door de generatie van expressieve wereldgebeurtenissen te ondersteunen, evolueert WorldCanvas wereldmodellen van passieve voorspellers naar interactieve, door de gebruiker gevormde simulatoren. Onze projectpagina is beschikbaar op: https://worldcanvas.github.io/.
English
We present WorldCanvas, a framework for promptable world events that enables rich, user-directed simulation by combining text, trajectories, and reference images. Unlike text-only approaches and existing trajectory-controlled image-to-video methods, our multimodal approach combines trajectories -- encoding motion, timing, and visibility -- with natural language for semantic intent and reference images for visual grounding of object identity, enabling the generation of coherent, controllable events that include multi-agent interactions, object entry/exit, reference-guided appearance and counterintuitive events. The resulting videos demonstrate not only temporal coherence but also emergent consistency, preserving object identity and scene despite temporary disappearance. By supporting expressive world events generation, WorldCanvas advances world models from passive predictors to interactive, user-shaped simulators. Our project page is available at: https://worldcanvas.github.io/.