ChatPaper.aiChatPaper

ChronoEdit: Naar temporeel redeneren voor beeldbewerking en wereldsimulatie

ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation

October 5, 2025
Auteurs: Jay Zhangjie Wu, Xuanchi Ren, Tianchang Shen, Tianshi Cao, Kai He, Yifan Lu, Ruiyuan Gao, Enze Xie, Shiyi Lan, Jose M. Alvarez, Jun Gao, Sanja Fidler, Zian Wang, Huan Ling
cs.AI

Samenvatting

Recente vooruitgang in grote generatieve modellen heeft beeldbewerking en in-context beeldgeneratie aanzienlijk verbeterd, maar een kritieke kloof blijft bestaan in het waarborgen van fysieke consistentie, waarbij bewerkte objecten coherent moeten blijven. Deze mogelijkheid is vooral cruciaal voor taken die verband houden met wereldsimulatie. In dit artikel presenteren we ChronoEdit, een framework dat beeldbewerking herformuleert als een videogeneratieprobleem. Ten eerste behandelt ChronoEdit de invoer- en bewerkte afbeeldingen als de eerste en laatste frames van een video, waardoor het gebruik kan maken van grote vooraf getrainde videogeneratieve modellen die niet alleen het uiterlijk van objecten vastleggen, maar ook de impliciete fysica van beweging en interactie door geleerde temporele consistentie. Ten tweede introduceert ChronoEdit een temporele redeneerfase die expliciet bewerkingen uitvoert tijdens de inferentie. In deze setting wordt het doelbeeld gezamenlijk ontruisd met redeneertokens om een plausibel bewerkingstraject te bedenken dat de oplossingsruimte beperkt tot fysiek haalbare transformaties. De redeneertokens worden vervolgens na een paar stappen verwijderd om de hoge rekenkosten van het renderen van een volledige video te vermijden. Om ChronoEdit te valideren, introduceren we PBench-Edit, een nieuwe benchmark van afbeelding-prompt-paren voor contexten die fysieke consistentie vereisen, en demonstreren we dat ChronoEdit state-of-the-art baselines overtreft in zowel visuele kwaliteit als fysieke plausibiliteit. Code en modellen voor zowel de 14B- als 2B-varianten van ChronoEdit zullen worden vrijgegeven op de projectpagina: https://research.nvidia.com/labs/toronto-ai/chronoedit
English
Recent advances in large generative models have significantly advanced image editing and in-context image generation, yet a critical gap remains in ensuring physical consistency, where edited objects must remain coherent. This capability is especially vital for world simulation related tasks. In this paper, we present ChronoEdit, a framework that reframes image editing as a video generation problem. First, ChronoEdit treats the input and edited images as the first and last frames of a video, allowing it to leverage large pretrained video generative models that capture not only object appearance but also the implicit physics of motion and interaction through learned temporal consistency. Second, ChronoEdit introduces a temporal reasoning stage that explicitly performs editing at inference time. Under this setting, the target frame is jointly denoised with reasoning tokens to imagine a plausible editing trajectory that constrains the solution space to physically viable transformations. The reasoning tokens are then dropped after a few steps to avoid the high computational cost of rendering a full video. To validate ChronoEdit, we introduce PBench-Edit, a new benchmark of image-prompt pairs for contexts that require physical consistency, and demonstrate that ChronoEdit surpasses state-of-the-art baselines in both visual fidelity and physical plausibility. Code and models for both the 14B and 2B variants of ChronoEdit will be released on the project page: https://research.nvidia.com/labs/toronto-ai/chronoedit
PDF102October 7, 2025