3D-Fixup : Amélioration de la retouche photo grâce à des connaissances préalables en 3D
3D-Fixup: Advancing Photo Editing with 3D Priors
May 15, 2025
Auteurs: Yen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alex Schwing, Liangyan Gui, Matheus Gadelha, Paul Guerrero, Nanxuan Zhao
cs.AI
Résumé
Malgré des avancées significatives dans la modélisation des a priori d'image via les modèles de diffusion, l'édition d'images en 3D reste un défi, en partie parce que l'objet n'est spécifié que par une seule image. Pour relever ce défi, nous proposons 3D-Fixup, un nouveau cadre pour l'édition d'images 2D guidée par des a priori 3D appris. Ce cadre prend en charge des situations d'édition complexes telles que la translation d'objets et la rotation en 3D. Pour y parvenir, nous exploitons une approche basée sur l'apprentissage qui tire parti de la puissance générative des modèles de diffusion. Comme les données vidéo encodent naturellement les dynamiques physiques du monde réel, nous nous tournons vers les données vidéo pour générer des paires de données d'entraînement, c'est-à-dire une image source et une image cible. Plutôt que de s'appuyer uniquement sur un seul modèle entraîné pour inférer les transformations entre les images source et cible, nous intégrons un guidage 3D provenant d'un modèle Image-to-3D, qui facilite cette tâche complexe en projetant explicitement les informations 2D dans l'espace 3D. Nous concevons un pipeline de génération de données pour garantir un guidage 3D de haute qualité tout au long de l'entraînement. Les résultats montrent qu'en intégrant ces a priori 3D, 3D-Fixup prend efficacement en charge des modifications complexes et cohérentes en 3D, produisant des résultats de haute qualité et faisant progresser l'application des modèles de diffusion dans la manipulation réaliste d'images. Le code est disponible à l'adresse suivante : https://3dfixup.github.io/
English
Despite significant advances in modeling image priors via diffusion models,
3D-aware image editing remains challenging, in part because the object is only
specified via a single image. To tackle this challenge, we propose 3D-Fixup, a
new framework for editing 2D images guided by learned 3D priors. The framework
supports difficult editing situations such as object translation and 3D
rotation. To achieve this, we leverage a training-based approach that harnesses
the generative power of diffusion models. As video data naturally encodes
real-world physical dynamics, we turn to video data for generating training
data pairs, i.e., a source and a target frame. Rather than relying solely on a
single trained model to infer transformations between source and target frames,
we incorporate 3D guidance from an Image-to-3D model, which bridges this
challenging task by explicitly projecting 2D information into 3D space. We
design a data generation pipeline to ensure high-quality 3D guidance throughout
training. Results show that by integrating these 3D priors, 3D-Fixup
effectively supports complex, identity coherent 3D-aware edits, achieving
high-quality results and advancing the application of diffusion models in
realistic image manipulation. The code is provided at
https://3dfixup.github.io/Summary
AI-Generated Summary