ChatPaper.aiChatPaper

Магическая настройка: оптимизация редактирования фотографий путем анализа динамических видеороликов

Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos

March 19, 2024
Авторы: Hadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi
cs.AI

Аннотация

Мы предлагаем генеративную модель, которая, имея грубо отредактированное изображение, синтезирует фотореалистичный результат, следуя предписанному макету. Наш метод передает мелкие детали из оригинального изображения и сохраняет идентичность его частей. Тем не менее, он адаптирует его к освещению и контексту, определенным новым макетом. Нашим ключевым открытием является то, что видео - мощный источник наблюдений для этой задачи: объекты и движения камеры предоставляют множество наблюдений о том, как меняется мир при изменении точки зрения, освещения и физических взаимодействий. Мы создаем набор данных изображений, в котором каждый образец представляет собой пару исходного и целевого кадров, извлеченных из одного и того же видео в случайно выбранные временные интервалы. Мы искажаем исходный кадр в сторону цели, используя две модели движения, имитирующие ожидаемые правки пользователя во время тестирования. Мы обучаем нашу модель переводить искаженное изображение в истину, начиная с предварительно обученной модели диффузии. Наша модель явно обеспечивает передачу мелких деталей из исходного кадра в созданное изображение, тесно следуя указанному пользователем макету. Мы показываем, что, используя простые сегментации и грубые 2D манипуляции, мы можем синтезировать фотореалистичное редактирование, верное вводу пользователя, решая при этом второстепенные эффекты, такие как гармонизация освещения и физических взаимодействий между отредактированными объектами.
English
We propose a generative model that, given a coarsely edited image, synthesizes a photorealistic output that follows the prescribed layout. Our method transfers fine details from the original image and preserves the identity of its parts. Yet, it adapts it to the lighting and context defined by the new layout. Our key insight is that videos are a powerful source of supervision for this task: objects and camera motions provide many observations of how the world changes with viewpoint, lighting, and physical interactions. We construct an image dataset in which each sample is a pair of source and target frames extracted from the same video at randomly chosen time intervals. We warp the source frame toward the target using two motion models that mimic the expected test-time user edits. We supervise our model to translate the warped image into the ground truth, starting from a pretrained diffusion model. Our model design explicitly enables fine detail transfer from the source frame to the generated image, while closely following the user-specified layout. We show that by using simple segmentations and coarse 2D manipulations, we can synthesize a photorealistic edit faithful to the user's input while addressing second-order effects like harmonizing the lighting and physical interactions between edited objects.

Summary

AI-Generated Summary

PDF151December 15, 2024