3D-Fixup: Усовершенствование редактирования фотографий с использованием 3D-приоритетов
3D-Fixup: Advancing Photo Editing with 3D Priors
May 15, 2025
Авторы: Yen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alex Schwing, Liangyan Gui, Matheus Gadelha, Paul Guerrero, Nanxuan Zhao
cs.AI
Аннотация
Несмотря на значительные успехи в моделировании априорных знаний об изображениях с помощью диффузионных моделей, редактирование изображений с учетом 3D-аспектов остается сложной задачей, отчасти потому, что объект задается только одним изображением. Для решения этой проблемы мы предлагаем 3D-Fixup — новый фреймворк для редактирования 2D-изображений с использованием обученных 3D-априорных знаний. Этот фреймворк поддерживает сложные сценарии редактирования, такие как перемещение объекта и 3D-вращение. Для достижения этого мы используем подход, основанный на обучении, который задействует генеративные возможности диффузионных моделей. Поскольку видеоданные естественным образом кодируют физическую динамику реального мира, мы обращаемся к видеоданным для создания обучающих пар, то есть исходного и целевого кадров. Вместо того чтобы полагаться исключительно на одну обученную модель для вывода преобразований между исходным и целевым кадрами, мы включаем 3D-ориентиры из модели Image-to-3D, которая решает эту сложную задачу, явно проецируя 2D-информацию в 3D-пространство. Мы разрабатываем конвейер генерации данных, чтобы обеспечить высококачественные 3D-ориентиры на протяжении всего обучения. Результаты показывают, что, интегрируя эти 3D-априорные знания, 3D-Fixup эффективно поддерживает сложные, согласованные с идентичностью 3D-редактирования, достигая высококачественных результатов и продвигая применение диффузионных моделей в реалистичной манипуляции изображениями. Код доступен по адресу https://3dfixup.github.io/.
English
Despite significant advances in modeling image priors via diffusion models,
3D-aware image editing remains challenging, in part because the object is only
specified via a single image. To tackle this challenge, we propose 3D-Fixup, a
new framework for editing 2D images guided by learned 3D priors. The framework
supports difficult editing situations such as object translation and 3D
rotation. To achieve this, we leverage a training-based approach that harnesses
the generative power of diffusion models. As video data naturally encodes
real-world physical dynamics, we turn to video data for generating training
data pairs, i.e., a source and a target frame. Rather than relying solely on a
single trained model to infer transformations between source and target frames,
we incorporate 3D guidance from an Image-to-3D model, which bridges this
challenging task by explicitly projecting 2D information into 3D space. We
design a data generation pipeline to ensure high-quality 3D guidance throughout
training. Results show that by integrating these 3D priors, 3D-Fixup
effectively supports complex, identity coherent 3D-aware edits, achieving
high-quality results and advancing the application of diffusion models in
realistic image manipulation. The code is provided at
https://3dfixup.github.io/Summary
AI-Generated Summary