ChronoEdit: Rumo ao Raciocínio Temporal para Edição de Imagens e Simulação de Mundos
ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation
October 5, 2025
Autores: Jay Zhangjie Wu, Xuanchi Ren, Tianchang Shen, Tianshi Cao, Kai He, Yifan Lu, Ruiyuan Gao, Enze Xie, Shiyi Lan, Jose M. Alvarez, Jun Gao, Sanja Fidler, Zian Wang, Huan Ling
cs.AI
Resumo
Os recentes avanços em grandes modelos generativos têm avançado significativamente a edição de imagens e a geração de imagens em contexto, mas ainda existe uma lacuna crítica em garantir a consistência física, onde os objetos editados devem permanecer coerentes. Essa capacidade é especialmente vital para tarefas relacionadas à simulação de mundos. Neste artigo, apresentamos o ChronoEdit, um framework que reformula a edição de imagens como um problema de geração de vídeo. Primeiro, o ChronoEdit trata as imagens de entrada e editadas como o primeiro e o último quadro de um vídeo, permitindo que ele aproveite grandes modelos generativos de vídeo pré-treinados que capturam não apenas a aparência dos objetos, mas também a física implícita do movimento e da interação por meio da consistência temporal aprendida. Segundo, o ChronoEdit introduz uma etapa de raciocínio temporal que realiza explicitamente a edição no momento da inferência. Nesse cenário, o quadro alvo é desnudado conjuntamente com tokens de raciocínio para imaginar uma trajetória de edição plausível que restringe o espaço de solução a transformações fisicamente viáveis. Os tokens de raciocínio são então descartados após alguns passos para evitar o alto custo computacional de renderizar um vídeo completo. Para validar o ChronoEdit, introduzimos o PBench-Edit, um novo benchmark de pares de imagem-prompt para contextos que exigem consistência física, e demonstramos que o ChronoEdit supera as baselines state-of-the-art tanto em fidelidade visual quanto em plausibilidade física. O código e os modelos para as variantes de 14B e 2B do ChronoEdit serão liberados na página do projeto: https://research.nvidia.com/labs/toronto-ai/chronoedit
English
Recent advances in large generative models have significantly advanced image
editing and in-context image generation, yet a critical gap remains in ensuring
physical consistency, where edited objects must remain coherent. This
capability is especially vital for world simulation related tasks. In this
paper, we present ChronoEdit, a framework that reframes image editing as a
video generation problem. First, ChronoEdit treats the input and edited images
as the first and last frames of a video, allowing it to leverage large
pretrained video generative models that capture not only object appearance but
also the implicit physics of motion and interaction through learned temporal
consistency. Second, ChronoEdit introduces a temporal reasoning stage that
explicitly performs editing at inference time. Under this setting, the target
frame is jointly denoised with reasoning tokens to imagine a plausible editing
trajectory that constrains the solution space to physically viable
transformations. The reasoning tokens are then dropped after a few steps to
avoid the high computational cost of rendering a full video. To validate
ChronoEdit, we introduce PBench-Edit, a new benchmark of image-prompt pairs for
contexts that require physical consistency, and demonstrate that ChronoEdit
surpasses state-of-the-art baselines in both visual fidelity and physical
plausibility. Code and models for both the 14B and 2B variants of ChronoEdit
will be released on the project page:
https://research.nvidia.com/labs/toronto-ai/chronoedit