ChatPaper.aiChatPaper

세상은 당신의 캔버스: 참조 이미지, 궤적, 텍스트로 프롬프트 가능한 이벤트 그리기

The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

December 18, 2025
저자: Hanlin Wang, Hao Ouyang, Qiuyu Wang, Yue Yu, Yihao Meng, Wen Wang, Ka Leong Cheng, Shuailei Ma, Qingyan Bai, Yixuan Li, Cheng Chen, Yanhong Zeng, Xing Zhu, Yujun Shen, Qifeng Chen
cs.AI

초록

WorldCanvas를 소개합니다. 이는 텍스트, 궤적, 참조 이미지를 결합하여 풍부하고 사용자 지시형 시뮬레이션을 가능하게 하는 프롬프트 가능 세계 이벤트 프레임워크입니다. 텍스트 전용 접근법이나 기존의 궤적 제어 이미지-비디오 방식과 달리, 우리의 다중모달 접근법은 움직임, 타이밍, 가시성을 인코딩하는 궤적을 의미론적 의도를 위한 자연어 및 객체 정체성의 시각적 기초를 위한 참조 이미지와 결합합니다. 이를 통해 다중 에이전트 상호작용, 객체 등장/퇴장, 참조 기반 외관, 반직관적 이벤트를 포함하는 일관되고 제어 가능한 이벤트 생성이 가능합니다. 결과 비디오는 시간적 일관성뿐만 아니라 객체 정체성과 장면을 일시적 소멸에도 보존하는 발생적 일관성을 보여줍니다. 표현력丰富的한 세계 이벤트 생성을 지원함으로써, WorldCanvas는 세계 모델을 수동적 예측기에서 상호작용 가능한 사용자 주도형 시뮬레이터로 발전시킵니다. 우리의 프로젝트 페이지는 https://worldcanvas.github.io/에서 확인할 수 있습니다.
English
We present WorldCanvas, a framework for promptable world events that enables rich, user-directed simulation by combining text, trajectories, and reference images. Unlike text-only approaches and existing trajectory-controlled image-to-video methods, our multimodal approach combines trajectories -- encoding motion, timing, and visibility -- with natural language for semantic intent and reference images for visual grounding of object identity, enabling the generation of coherent, controllable events that include multi-agent interactions, object entry/exit, reference-guided appearance and counterintuitive events. The resulting videos demonstrate not only temporal coherence but also emergent consistency, preserving object identity and scene despite temporary disappearance. By supporting expressive world events generation, WorldCanvas advances world models from passive predictors to interactive, user-shaped simulators. Our project page is available at: https://worldcanvas.github.io/.
PDF192December 20, 2025