ChatPaper.aiChatPaper

ChronoEdit: 画像編集と世界シミュレーションのための時間的推論に向けて

ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation

October 5, 2025
著者: Jay Zhangjie Wu, Xuanchi Ren, Tianchang Shen, Tianshi Cao, Kai He, Yifan Lu, Ruiyuan Gao, Enze Xie, Shiyi Lan, Jose M. Alvarez, Jun Gao, Sanja Fidler, Zian Wang, Huan Ling
cs.AI

要旨

大規模生成モデルの最近の進展により、画像編集や文脈内画像生成が大幅に進歩したが、編集されたオブジェクトが一貫性を保つ必要がある物理的整合性を確保する点で重要なギャップが残っている。この能力は、世界シミュレーションに関連するタスクにおいて特に重要である。本論文では、画像編集をビデオ生成問題として再定義するフレームワークであるChronoEditを提案する。まず、ChronoEditは入力画像と編集画像をビデオの最初と最後のフレームとして扱い、物体の外観だけでなく、学習された時間的整合性を通じて運動と相互作用の暗黙の物理も捉える大規模な事前学習済みビデオ生成モデルを活用する。次に、ChronoEditは推論時に明示的に編集を行う時間的推論ステージを導入する。この設定の下で、ターゲットフレームは推論トークンと共に共同でノイズ除去され、物理的に実行可能な変換に解空間を制約する妥当な編集軌跡を想像する。その後、推論トークンは数ステップ後に削除され、完全なビデオをレンダリングするための高い計算コストを回避する。ChronoEditを検証するために、物理的整合性を必要とする文脈における画像-プロンプトペアの新しいベンチマークであるPBench-Editを導入し、ChronoEditが視覚的忠実度と物理的妥当性の両方において最先端のベースラインを凌駕することを示す。ChronoEditの14Bおよび2Bバリアントのコードとモデルは、プロジェクトページで公開される予定である: https://research.nvidia.com/labs/toronto-ai/chronoedit
English
Recent advances in large generative models have significantly advanced image editing and in-context image generation, yet a critical gap remains in ensuring physical consistency, where edited objects must remain coherent. This capability is especially vital for world simulation related tasks. In this paper, we present ChronoEdit, a framework that reframes image editing as a video generation problem. First, ChronoEdit treats the input and edited images as the first and last frames of a video, allowing it to leverage large pretrained video generative models that capture not only object appearance but also the implicit physics of motion and interaction through learned temporal consistency. Second, ChronoEdit introduces a temporal reasoning stage that explicitly performs editing at inference time. Under this setting, the target frame is jointly denoised with reasoning tokens to imagine a plausible editing trajectory that constrains the solution space to physically viable transformations. The reasoning tokens are then dropped after a few steps to avoid the high computational cost of rendering a full video. To validate ChronoEdit, we introduce PBench-Edit, a new benchmark of image-prompt pairs for contexts that require physical consistency, and demonstrate that ChronoEdit surpasses state-of-the-art baselines in both visual fidelity and physical plausibility. Code and models for both the 14B and 2B variants of ChronoEdit will be released on the project page: https://research.nvidia.com/labs/toronto-ai/chronoedit
PDF92October 7, 2025