ChronoEdit: Auf dem Weg zur temporalen Argumentation für Bildbearbeitung und Weltsimulation
ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation
October 5, 2025
papers.authors: Jay Zhangjie Wu, Xuanchi Ren, Tianchang Shen, Tianshi Cao, Kai He, Yifan Lu, Ruiyuan Gao, Enze Xie, Shiyi Lan, Jose M. Alvarez, Jun Gao, Sanja Fidler, Zian Wang, Huan Ling
cs.AI
papers.abstract
Jüngste Fortschritte bei großen generativen Modellen haben die Bildbearbeitung und die kontextbezogene Bildgenerierung erheblich vorangetrieben, doch besteht nach wie vor eine kritische Lücke bei der Gewährleistung physikalischer Konsistenz, bei der bearbeitete Objekte kohärent bleiben müssen. Diese Fähigkeit ist besonders wichtig für Aufgaben im Zusammenhang mit der Weltsimulation. In diesem Artikel stellen wir ChronoEdit vor, ein Framework, das die Bildbearbeitung als ein Problem der Videogenerierung neu definiert. Zunächst behandelt ChronoEdit die Eingabe- und bearbeiteten Bilder als das erste und letzte Frame eines Videos, wodurch es möglich wird, große vortrainierte videogenerative Modelle zu nutzen, die nicht nur das Erscheinungsbild von Objekten, sondern auch die implizite Physik von Bewegung und Interaktion durch erlernte zeitliche Konsistenz erfassen. Zweitens führt ChronoEdit eine zeitliche Argumentationsstufe ein, die die Bearbeitung explizit zur Inferenzzeit durchführt. In diesem Rahmen wird das Zielbild gemeinsam mit Argumentationstokens entrauscht, um eine plausible Bearbeitungstrajektorie zu imaginieren, die den Lösungsraum auf physikalisch realisierbare Transformationen beschränkt. Die Argumentationstokens werden dann nach einigen Schritten verworfen, um die hohen Rechenkosten der Rendering eines vollständigen Videos zu vermeiden. Um ChronoEdit zu validieren, führen wir PBench-Edit ein, einen neuen Benchmark von Bild-Prompt-Paaren für Kontexte, die physikalische Konsistenz erfordern, und zeigen, dass ChronoEdit sowohl in Bezug auf die visuelle Qualität als auch auf die physikalische Plausibilität die aktuellsten Baselines übertrifft. Der Code und die Modelle für die 14B- und 2B-Varianten von ChronoEdit werden auf der Projektseite veröffentlicht: https://research.nvidia.com/labs/toronto-ai/chronoedit.
English
Recent advances in large generative models have significantly advanced image
editing and in-context image generation, yet a critical gap remains in ensuring
physical consistency, where edited objects must remain coherent. This
capability is especially vital for world simulation related tasks. In this
paper, we present ChronoEdit, a framework that reframes image editing as a
video generation problem. First, ChronoEdit treats the input and edited images
as the first and last frames of a video, allowing it to leverage large
pretrained video generative models that capture not only object appearance but
also the implicit physics of motion and interaction through learned temporal
consistency. Second, ChronoEdit introduces a temporal reasoning stage that
explicitly performs editing at inference time. Under this setting, the target
frame is jointly denoised with reasoning tokens to imagine a plausible editing
trajectory that constrains the solution space to physically viable
transformations. The reasoning tokens are then dropped after a few steps to
avoid the high computational cost of rendering a full video. To validate
ChronoEdit, we introduce PBench-Edit, a new benchmark of image-prompt pairs for
contexts that require physical consistency, and demonstrate that ChronoEdit
surpasses state-of-the-art baselines in both visual fidelity and physical
plausibility. Code and models for both the 14B and 2B variants of ChronoEdit
will be released on the project page:
https://research.nvidia.com/labs/toronto-ai/chronoedit