ChatPaper.aiChatPaper

Le Monde est Votre Toile : Peindre des Événements Guidables avec des Images de Référence, des Trajectoires et du Texte

The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

December 18, 2025
papers.authors: Hanlin Wang, Hao Ouyang, Qiuyu Wang, Yue Yu, Yihao Meng, Wen Wang, Ka Leong Cheng, Shuailei Ma, Qingyan Bai, Yixuan Li, Cheng Chen, Yanhong Zeng, Xing Zhu, Yujun Shen, Qifeng Chen
cs.AI

papers.abstract

Nous présentons WorldCanvas, un cadre pour la génération d'événements mondiaux pilotables par prompt, qui permet une simulation riche et dirigée par l'utilisateur en combinant texte, trajectoires et images de référence. Contrairement aux approches purement textuelles et aux méthodes vidéo-from-image existantes contrôlées par trajectoires, notre approche multimodale combine des trajectoires – encodant le mouvement, le timing et la visibilité – avec le langage naturel pour l'intention sémantique et des images de référence pour l'ancrage visuel de l'identité des objets. Cela permet la génération d'événements cohérents et contrôlables incluant des interactions multi-agents, l'entrée/sortie d'objets, l'apparence guidée par référence et des événements contre-intuitifs. Les vidéos résultantes démontrent non seulement une cohérence temporelle mais aussi une cohérence émergente, préservant l'identité des objets et la scène malgré des disparitions temporaires. En permettant la génération expressive d'événements mondiaux, WorldCanvas fait évoluer les modèles du monde de prédicteurs passifs vers des simulateurs interactifs façonnés par l'utilisateur. Notre page projet est disponible à l'adresse : https://worldcanvas.github.io/.
English
We present WorldCanvas, a framework for promptable world events that enables rich, user-directed simulation by combining text, trajectories, and reference images. Unlike text-only approaches and existing trajectory-controlled image-to-video methods, our multimodal approach combines trajectories -- encoding motion, timing, and visibility -- with natural language for semantic intent and reference images for visual grounding of object identity, enabling the generation of coherent, controllable events that include multi-agent interactions, object entry/exit, reference-guided appearance and counterintuitive events. The resulting videos demonstrate not only temporal coherence but also emergent consistency, preserving object identity and scene despite temporary disappearance. By supporting expressive world events generation, WorldCanvas advances world models from passive predictors to interactive, user-shaped simulators. Our project page is available at: https://worldcanvas.github.io/.
PDF192December 20, 2025