ChatPaper.aiChatPaper

ChronoEdit: Hacia el razonamiento temporal para la edición de imágenes y la simulación de mundos

ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation

October 5, 2025
Autores: Jay Zhangjie Wu, Xuanchi Ren, Tianchang Shen, Tianshi Cao, Kai He, Yifan Lu, Ruiyuan Gao, Enze Xie, Shiyi Lan, Jose M. Alvarez, Jun Gao, Sanja Fidler, Zian Wang, Huan Ling
cs.AI

Resumen

Los recientes avances en modelos generativos de gran escala han impulsado significativamente la edición de imágenes y la generación de imágenes en contexto, pero persiste una brecha crítica en garantizar la consistencia física, donde los objetos editados deben mantenerse coherentes. Esta capacidad es especialmente vital para tareas relacionadas con la simulación de mundos. En este artículo, presentamos ChronoEdit, un marco que reformula la edición de imágenes como un problema de generación de video. Primero, ChronoEdit trata las imágenes de entrada y editadas como el primer y último fotograma de un video, lo que le permite aprovechar modelos generativos de video preentrenados de gran escala que capturan no solo la apariencia de los objetos, sino también la física implícita del movimiento y la interacción a través de la consistencia temporal aprendida. Segundo, ChronoEdit introduce una etapa de razonamiento temporal que realiza explícitamente la edición en tiempo de inferencia. Bajo este enfoque, el fotograma objetivo se desruido conjuntamente con tokens de razonamiento para imaginar una trayectoria de edición plausible que restringe el espacio de soluciones a transformaciones físicamente viables. Los tokens de razonamiento se descartan después de unos pocos pasos para evitar el alto costo computacional de renderizar un video completo. Para validar ChronoEdit, presentamos PBench-Edit, un nuevo banco de pruebas de pares de imagen-prompt para contextos que requieren consistencia física, y demostramos que ChronoEdit supera a los métodos de referencia más avanzados tanto en fidelidad visual como en plausibilidad física. El código y los modelos para las variantes de 14B y 2B de ChronoEdit se publicarán en la página del proyecto: https://research.nvidia.com/labs/toronto-ai/chronoedit.
English
Recent advances in large generative models have significantly advanced image editing and in-context image generation, yet a critical gap remains in ensuring physical consistency, where edited objects must remain coherent. This capability is especially vital for world simulation related tasks. In this paper, we present ChronoEdit, a framework that reframes image editing as a video generation problem. First, ChronoEdit treats the input and edited images as the first and last frames of a video, allowing it to leverage large pretrained video generative models that capture not only object appearance but also the implicit physics of motion and interaction through learned temporal consistency. Second, ChronoEdit introduces a temporal reasoning stage that explicitly performs editing at inference time. Under this setting, the target frame is jointly denoised with reasoning tokens to imagine a plausible editing trajectory that constrains the solution space to physically viable transformations. The reasoning tokens are then dropped after a few steps to avoid the high computational cost of rendering a full video. To validate ChronoEdit, we introduce PBench-Edit, a new benchmark of image-prompt pairs for contexts that require physical consistency, and demonstrate that ChronoEdit surpasses state-of-the-art baselines in both visual fidelity and physical plausibility. Code and models for both the 14B and 2B variants of ChronoEdit will be released on the project page: https://research.nvidia.com/labs/toronto-ai/chronoedit
PDF92October 7, 2025