ChronoEdit: Verso il ragionamento temporale per l'editing di immagini e la simulazione del mondo
ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation
October 5, 2025
Autori: Jay Zhangjie Wu, Xuanchi Ren, Tianchang Shen, Tianshi Cao, Kai He, Yifan Lu, Ruiyuan Gao, Enze Xie, Shiyi Lan, Jose M. Alvarez, Jun Gao, Sanja Fidler, Zian Wang, Huan Ling
cs.AI
Abstract
I recenti progressi nei modelli generativi di grandi dimensioni hanno significativamente avanzato l'editing di immagini e la generazione di immagini in contesto, ma rimane un divario critico nel garantire la coerenza fisica, dove gli oggetti modificati devono rimanere coerenti. Questa capacità è particolarmente vitale per le attività legate alla simulazione del mondo. In questo articolo, presentiamo ChronoEdit, un framework che riformula l'editing di immagini come un problema di generazione video. In primo luogo, ChronoEdit tratta le immagini di input e quelle modificate come il primo e l'ultimo fotogramma di un video, consentendogli di sfruttare grandi modelli generativi video pre-addestrati che catturano non solo l'aspetto degli oggetti ma anche la fisica implicita del movimento e dell'interazione attraverso la coerenza temporale appresa. In secondo luogo, ChronoEdit introduce una fase di ragionamento temporale che esegue esplicitamente l'editing al momento dell'inferenza. In questo contesto, il fotogramma target viene denoisato congiuntamente con token di ragionamento per immaginare una traiettoria di editing plausibile che vincola lo spazio delle soluzioni a trasformazioni fisicamente valide. I token di ragionamento vengono poi eliminati dopo pochi passi per evitare l'elevato costo computazionale del rendering di un video completo. Per validare ChronoEdit, introduciamo PBench-Edit, un nuovo benchmark di coppie immagine-prompt per contesti che richiedono coerenza fisica, e dimostriamo che ChronoEdit supera i baseline state-of-the-art sia nella fedeltà visiva che nella plausibilità fisica. Il codice e i modelli per entrambe le varianti da 14B e 2B di ChronoEdit saranno rilasciati sulla pagina del progetto: https://research.nvidia.com/labs/toronto-ai/chronoedit
English
Recent advances in large generative models have significantly advanced image
editing and in-context image generation, yet a critical gap remains in ensuring
physical consistency, where edited objects must remain coherent. This
capability is especially vital for world simulation related tasks. In this
paper, we present ChronoEdit, a framework that reframes image editing as a
video generation problem. First, ChronoEdit treats the input and edited images
as the first and last frames of a video, allowing it to leverage large
pretrained video generative models that capture not only object appearance but
also the implicit physics of motion and interaction through learned temporal
consistency. Second, ChronoEdit introduces a temporal reasoning stage that
explicitly performs editing at inference time. Under this setting, the target
frame is jointly denoised with reasoning tokens to imagine a plausible editing
trajectory that constrains the solution space to physically viable
transformations. The reasoning tokens are then dropped after a few steps to
avoid the high computational cost of rendering a full video. To validate
ChronoEdit, we introduce PBench-Edit, a new benchmark of image-prompt pairs for
contexts that require physical consistency, and demonstrate that ChronoEdit
surpasses state-of-the-art baselines in both visual fidelity and physical
plausibility. Code and models for both the 14B and 2B variants of ChronoEdit
will be released on the project page:
https://research.nvidia.com/labs/toronto-ai/chronoedit