El Mundo es Tu Lienzo: Pintando Eventos Accionables con Imágenes de Referencia, Trayectorias y Texto

Resumen

Presentamos WorldCanvas, un marco para eventos mundiales accionables por instrucciones que permite simulaciones ricas y dirigidas por el usuario mediante la combinación de texto, trayectorias e imágenes de referencia. A diferencia de los enfoques basados únicamente en texto y los métodos existentes de imagen-a-video controlados por trayectorias, nuestro enfoque multimodal combina trayectorias —que codifican movimiento, sincronización y visibilidad— con lenguaje natural para la intención semántica e imágenes de referencia para la base visual de la identidad de objetos. Esto posibilita la generación de eventos coherentes y controlables que incluyen interacciones multiagente, entrada/salida de objetos, apariencia guiada por referencia y eventos contraintuitivos. Los videos resultantes demuestran no solo coherencia temporal sino también consistencia emergente, preservando la identidad de los objetos y la escena a pesar de las desapariciones temporales. Al apoyar la generación expresiva de eventos mundiales, WorldCanvas avanza los modelos de mundo desde predictores pasivos hasta simuladores interactivos moldeados por el usuario. Nuestra página del proyecto está disponible en: https://worldcanvas.github.io/.

English

We present WorldCanvas, a framework for promptable world events that enables rich, user-directed simulation by combining text, trajectories, and reference images. Unlike text-only approaches and existing trajectory-controlled image-to-video methods, our multimodal approach combines trajectories -- encoding motion, timing, and visibility -- with natural language for semantic intent and reference images for visual grounding of object identity, enabling the generation of coherent, controllable events that include multi-agent interactions, object entry/exit, reference-guided appearance and counterintuitive events. The resulting videos demonstrate not only temporal coherence but also emergent consistency, preserving object identity and scene despite temporary disappearance. By supporting expressive world events generation, WorldCanvas advances world models from passive predictors to interactive, user-shaped simulators. Our project page is available at: https://worldcanvas.github.io/.