ChronoEdit : Vers un raisonnement temporel pour l'édition d'images et la simulation du monde
ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation
October 5, 2025
papers.authors: Jay Zhangjie Wu, Xuanchi Ren, Tianchang Shen, Tianshi Cao, Kai He, Yifan Lu, Ruiyuan Gao, Enze Xie, Shiyi Lan, Jose M. Alvarez, Jun Gao, Sanja Fidler, Zian Wang, Huan Ling
cs.AI
papers.abstract
Les récentes avancées dans les grands modèles génératifs ont considérablement amélioré l'édition d'images et la génération d'images en contexte. Cependant, un défi majeur persiste dans la garantie de la cohérence physique, où les objets modifiés doivent rester cohérents. Cette capacité est particulièrement cruciale pour les tâches liées à la simulation du monde. Dans cet article, nous présentons ChronoEdit, un cadre qui reformule l'édition d'images comme un problème de génération de vidéo. Premièrement, ChronoEdit traite les images d'entrée et modifiées comme les première et dernière images d'une vidéo, lui permettant ainsi d'exploiter de grands modèles génératifs vidéo pré-entraînés qui capturent non seulement l'apparence des objets, mais aussi la physique implicite du mouvement et de l'interaction grâce à une cohérence temporelle apprise. Deuxièmement, ChronoEdit introduit une étape de raisonnement temporel qui effectue explicitement l'édition au moment de l'inférence. Dans ce cadre, l'image cible est conjointement débruîtée avec des tokens de raisonnement pour imaginer une trajectoire d'édition plausible qui contraint l'espace des solutions à des transformations physiquement viables. Les tokens de raisonnement sont ensuite abandonnés après quelques étapes pour éviter le coût computationnel élevé du rendu d'une vidéo complète. Pour valider ChronoEdit, nous introduisons PBench-Edit, un nouveau benchmark de paires image-prompt pour des contextes nécessitant une cohérence physique, et démontrons que ChronoEdit surpasse les meilleures méthodes de référence en termes de fidélité visuelle et de plausibilité physique. Le code et les modèles pour les variantes 14B et 2B de ChronoEdit seront publiés sur la page du projet : https://research.nvidia.com/labs/toronto-ai/chronoedit.
English
Recent advances in large generative models have significantly advanced image
editing and in-context image generation, yet a critical gap remains in ensuring
physical consistency, where edited objects must remain coherent. This
capability is especially vital for world simulation related tasks. In this
paper, we present ChronoEdit, a framework that reframes image editing as a
video generation problem. First, ChronoEdit treats the input and edited images
as the first and last frames of a video, allowing it to leverage large
pretrained video generative models that capture not only object appearance but
also the implicit physics of motion and interaction through learned temporal
consistency. Second, ChronoEdit introduces a temporal reasoning stage that
explicitly performs editing at inference time. Under this setting, the target
frame is jointly denoised with reasoning tokens to imagine a plausible editing
trajectory that constrains the solution space to physically viable
transformations. The reasoning tokens are then dropped after a few steps to
avoid the high computational cost of rendering a full video. To validate
ChronoEdit, we introduce PBench-Edit, a new benchmark of image-prompt pairs for
contexts that require physical consistency, and demonstrate that ChronoEdit
surpasses state-of-the-art baselines in both visual fidelity and physical
plausibility. Code and models for both the 14B and 2B variants of ChronoEdit
will be released on the project page:
https://research.nvidia.com/labs/toronto-ai/chronoedit