3D-Fixup: Fortschritt in der Fotobearbeitung durch 3D-Priors
3D-Fixup: Advancing Photo Editing with 3D Priors
May 15, 2025
Autoren: Yen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alex Schwing, Liangyan Gui, Matheus Gadelha, Paul Guerrero, Nanxuan Zhao
cs.AI
Zusammenfassung
Trotz bedeutender Fortschritte bei der Modellierung von Bildprioren durch Diffusionsmodelle bleibt die 3D-bewusste Bildbearbeitung eine Herausforderung, teilweise weil das Objekt nur über ein einzelnes Bild spezifiziert wird. Um diese Herausforderung zu bewältigen, schlagen wir 3D-Fixup vor, ein neues Framework zur Bearbeitung von 2D-Bildern, das durch gelernte 3D-Prioren geleitet wird. Das Framework unterstützt schwierige Bearbeitungsszenarien wie Objektverschiebung und 3D-Rotation. Um dies zu erreichen, nutzen wir einen trainingsbasierten Ansatz, der die generative Kraft von Diffusionsmodellen nutzt. Da Videodaten natürlicherweise physikalische Dynamiken der realen Welt kodieren, greifen wir auf Videodaten zurück, um Trainingsdatenpaare zu generieren, d.h. ein Quell- und ein Zielbild. Anstatt sich ausschließlich auf ein einzelnes trainiertes Modell zu verlassen, um Transformationen zwischen Quell- und Zielbildern abzuleiten, integrieren wir 3D-Anleitungen von einem Bild-zu-3D-Modell, das diese anspruchsvolle Aufgabe überbrückt, indem es 2D-Informationen explizit in den 3D-Raum projiziert. Wir entwerfen eine Daten-Generierungspipeline, um eine hochwertige 3D-Anleitung während des gesamten Trainings sicherzustellen. Die Ergebnisse zeigen, dass durch die Integration dieser 3D-Prioren 3D-Fixup komplexe, identitätskohärente 3D-bewusste Bearbeitungen effektiv unterstützt und hochwertige Ergebnisse erzielt, wodurch die Anwendung von Diffusionsmodellen in der realistischen Bildmanipulation vorangetrieben wird. Der Code ist unter https://3dfixup.github.io/ verfügbar.
English
Despite significant advances in modeling image priors via diffusion models,
3D-aware image editing remains challenging, in part because the object is only
specified via a single image. To tackle this challenge, we propose 3D-Fixup, a
new framework for editing 2D images guided by learned 3D priors. The framework
supports difficult editing situations such as object translation and 3D
rotation. To achieve this, we leverage a training-based approach that harnesses
the generative power of diffusion models. As video data naturally encodes
real-world physical dynamics, we turn to video data for generating training
data pairs, i.e., a source and a target frame. Rather than relying solely on a
single trained model to infer transformations between source and target frames,
we incorporate 3D guidance from an Image-to-3D model, which bridges this
challenging task by explicitly projecting 2D information into 3D space. We
design a data generation pipeline to ensure high-quality 3D guidance throughout
training. Results show that by integrating these 3D priors, 3D-Fixup
effectively supports complex, identity coherent 3D-aware edits, achieving
high-quality results and advancing the application of diffusion models in
realistic image manipulation. The code is provided at
https://3dfixup.github.io/Summary
AI-Generated Summary