ChatPaper.aiChatPaper

ChronoEdit: В направлении временного анализа для редактирования изображений и моделирования мира

ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation

October 5, 2025
Авторы: Jay Zhangjie Wu, Xuanchi Ren, Tianchang Shen, Tianshi Cao, Kai He, Yifan Lu, Ruiyuan Gao, Enze Xie, Shiyi Lan, Jose M. Alvarez, Jun Gao, Sanja Fidler, Zian Wang, Huan Ling
cs.AI

Аннотация

Последние достижения в области крупных генеративных моделей значительно продвинули редактирование изображений и генерацию изображений в контексте, однако критический пробел остается в обеспечении физической согласованности, где редактируемые объекты должны сохранять свою целостность. Эта способность особенно важна для задач, связанных с моделированием мира. В данной статье мы представляем ChronoEdit — фреймворк, который переосмысливает редактирование изображений как задачу генерации видео. Во-первых, ChronoEdit рассматривает исходное и отредактированное изображения как первый и последний кадры видео, что позволяет использовать крупные предобученные модели генерации видео, которые учитывают не только внешний вид объектов, но и неявную физику движения и взаимодействия через изученную временную согласованность. Во-вторых, ChronoEdit вводит этап временного рассуждения, который явно выполняет редактирование во время вывода. В этом контексте целевой кадр совместно очищается от шума с использованием токенов рассуждения, чтобы представить правдоподобную траекторию редактирования, которая ограничивает пространство решений физически допустимыми преобразованиями. Токены рассуждения затем удаляются через несколько шагов, чтобы избежать высоких вычислительных затрат на рендеринг полного видео. Для проверки ChronoEdit мы представляем PBench-Edit — новый бенчмарк пар изображение-запрос для контекстов, требующих физической согласованности, и демонстрируем, что ChronoEdit превосходит современные базовые модели как по визуальной точности, так и по физической правдоподобности. Код и модели для вариантов ChronoEdit на 14B и 2B будут опубликованы на странице проекта: https://research.nvidia.com/labs/toronto-ai/chronoedit.
English
Recent advances in large generative models have significantly advanced image editing and in-context image generation, yet a critical gap remains in ensuring physical consistency, where edited objects must remain coherent. This capability is especially vital for world simulation related tasks. In this paper, we present ChronoEdit, a framework that reframes image editing as a video generation problem. First, ChronoEdit treats the input and edited images as the first and last frames of a video, allowing it to leverage large pretrained video generative models that capture not only object appearance but also the implicit physics of motion and interaction through learned temporal consistency. Second, ChronoEdit introduces a temporal reasoning stage that explicitly performs editing at inference time. Under this setting, the target frame is jointly denoised with reasoning tokens to imagine a plausible editing trajectory that constrains the solution space to physically viable transformations. The reasoning tokens are then dropped after a few steps to avoid the high computational cost of rendering a full video. To validate ChronoEdit, we introduce PBench-Edit, a new benchmark of image-prompt pairs for contexts that require physical consistency, and demonstrate that ChronoEdit surpasses state-of-the-art baselines in both visual fidelity and physical plausibility. Code and models for both the 14B and 2B variants of ChronoEdit will be released on the project page: https://research.nvidia.com/labs/toronto-ai/chronoedit
PDF92October 7, 2025