ChatPaper.aiChatPaper

3D-Fixup: Avanzando en la edición de fotos con conocimientos previos en 3D

3D-Fixup: Advancing Photo Editing with 3D Priors

May 15, 2025
Autores: Yen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alex Schwing, Liangyan Gui, Matheus Gadelha, Paul Guerrero, Nanxuan Zhao
cs.AI

Resumen

A pesar de los avances significativos en el modelado de priors de imágenes mediante modelos de difusión, la edición de imágenes con conciencia 3D sigue siendo un desafío, en parte porque el objeto solo se especifica a través de una única imagen. Para abordar este desafío, proponemos 3D-Fixup, un nuevo marco para la edición de imágenes 2D guiado por priors 3D aprendidos. El marco admite situaciones de edición difíciles, como la traslación de objetos y la rotación en 3D. Para lograrlo, aprovechamos un enfoque basado en entrenamiento que utiliza el poder generativo de los modelos de difusión. Dado que los datos de video codifican naturalmente la dinámica física del mundo real, recurrimos a datos de video para generar pares de datos de entrenamiento, es decir, un fotograma fuente y un fotograma objetivo. En lugar de depender únicamente de un único modelo entrenado para inferir transformaciones entre los fotogramas fuente y objetivo, incorporamos guía 3D de un modelo de Imagen-a-3D, que aborda esta tarea desafiante proyectando explícitamente información 2D en el espacio 3D. Diseñamos una canalización de generación de datos para garantizar una guía 3D de alta calidad durante el entrenamiento. Los resultados muestran que, al integrar estos priors 3D, 3D-Fixup respalda eficazmente ediciones complejas y coherentes con la identidad en 3D, logrando resultados de alta calidad y avanzando en la aplicación de modelos de difusión en la manipulación realista de imágenes. El código se proporciona en https://3dfixup.github.io/.
English
Despite significant advances in modeling image priors via diffusion models, 3D-aware image editing remains challenging, in part because the object is only specified via a single image. To tackle this challenge, we propose 3D-Fixup, a new framework for editing 2D images guided by learned 3D priors. The framework supports difficult editing situations such as object translation and 3D rotation. To achieve this, we leverage a training-based approach that harnesses the generative power of diffusion models. As video data naturally encodes real-world physical dynamics, we turn to video data for generating training data pairs, i.e., a source and a target frame. Rather than relying solely on a single trained model to infer transformations between source and target frames, we incorporate 3D guidance from an Image-to-3D model, which bridges this challenging task by explicitly projecting 2D information into 3D space. We design a data generation pipeline to ensure high-quality 3D guidance throughout training. Results show that by integrating these 3D priors, 3D-Fixup effectively supports complex, identity coherent 3D-aware edits, achieving high-quality results and advancing the application of diffusion models in realistic image manipulation. The code is provided at https://3dfixup.github.io/

Summary

AI-Generated Summary

PDF62May 16, 2025