3D-Fixup: Avançando a Edição de Fotos com Priors 3D
3D-Fixup: Advancing Photo Editing with 3D Priors
May 15, 2025
Autores: Yen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alex Schwing, Liangyan Gui, Matheus Gadelha, Paul Guerrero, Nanxuan Zhao
cs.AI
Resumo
Apesar dos avanços significativos na modelagem de priors de imagem por meio de modelos de difusão, a edição de imagens com consciência 3D continua desafiadora, em parte porque o objeto é especificado apenas por uma única imagem. Para enfrentar esse desafio, propomos o 3D-Fixup, um novo framework para edição de imagens 2D guiada por priors 3D aprendidos. O framework suporta situações de edição difíceis, como translação de objetos e rotação 3D. Para alcançar isso, utilizamos uma abordagem baseada em treinamento que aproveita o poder generativo dos modelos de difusão. Como os dados de vídeo naturalmente codificam a dinâmica física do mundo real, recorremos a dados de vídeo para gerar pares de dados de treinamento, ou seja, um quadro de origem e um quadro de destino. Em vez de depender exclusivamente de um único modelo treinado para inferir transformações entre os quadros de origem e destino, incorporamos orientação 3D de um modelo Image-to-3D, que facilita essa tarefa desafiadora ao projetar explicitamente informações 2D no espaço 3D. Projetamos um pipeline de geração de dados para garantir orientação 3D de alta qualidade durante o treinamento. Os resultados mostram que, ao integrar esses priors 3D, o 3D-Fixup suporta efetivamente edições complexas e coerentes com a identidade, com consciência 3D, alcançando resultados de alta qualidade e avançando a aplicação de modelos de difusão na manipulação realista de imagens. O código está disponível em https://3dfixup.github.io/
English
Despite significant advances in modeling image priors via diffusion models,
3D-aware image editing remains challenging, in part because the object is only
specified via a single image. To tackle this challenge, we propose 3D-Fixup, a
new framework for editing 2D images guided by learned 3D priors. The framework
supports difficult editing situations such as object translation and 3D
rotation. To achieve this, we leverage a training-based approach that harnesses
the generative power of diffusion models. As video data naturally encodes
real-world physical dynamics, we turn to video data for generating training
data pairs, i.e., a source and a target frame. Rather than relying solely on a
single trained model to infer transformations between source and target frames,
we incorporate 3D guidance from an Image-to-3D model, which bridges this
challenging task by explicitly projecting 2D information into 3D space. We
design a data generation pipeline to ensure high-quality 3D guidance throughout
training. Results show that by integrating these 3D priors, 3D-Fixup
effectively supports complex, identity coherent 3D-aware edits, achieving
high-quality results and advancing the application of diffusion models in
realistic image manipulation. The code is provided at
https://3dfixup.github.io/