3D-Fixup: Fortschritt in der Fotobearbeitung durch 3D-Priors

Zusammenfassung

Trotz bedeutender Fortschritte bei der Modellierung von Bildprioren durch Diffusionsmodelle bleibt die 3D-bewusste Bildbearbeitung eine Herausforderung, teilweise weil das Objekt nur über ein einzelnes Bild spezifiziert wird. Um diese Herausforderung zu bewältigen, schlagen wir 3D-Fixup vor, ein neues Framework zur Bearbeitung von 2D-Bildern, das durch gelernte 3D-Prioren geleitet wird. Das Framework unterstützt schwierige Bearbeitungsszenarien wie Objektverschiebung und 3D-Rotation. Um dies zu erreichen, nutzen wir einen trainingsbasierten Ansatz, der die generative Kraft von Diffusionsmodellen nutzt. Da Videodaten natürlicherweise physikalische Dynamiken der realen Welt kodieren, greifen wir auf Videodaten zurück, um Trainingsdatenpaare zu generieren, d.h. ein Quell- und ein Zielbild. Anstatt sich ausschließlich auf ein einzelnes trainiertes Modell zu verlassen, um Transformationen zwischen Quell- und Zielbildern abzuleiten, integrieren wir 3D-Anleitungen von einem Bild-zu-3D-Modell, das diese anspruchsvolle Aufgabe überbrückt, indem es 2D-Informationen explizit in den 3D-Raum projiziert. Wir entwerfen eine Daten-Generierungspipeline, um eine hochwertige 3D-Anleitung während des gesamten Trainings sicherzustellen. Die Ergebnisse zeigen, dass durch die Integration dieser 3D-Prioren 3D-Fixup komplexe, identitätskohärente 3D-bewusste Bearbeitungen effektiv unterstützt und hochwertige Ergebnisse erzielt, wodurch die Anwendung von Diffusionsmodellen in der realistischen Bildmanipulation vorangetrieben wird. Der Code ist unter https://3dfixup.github.io/ verfügbar.

English

Despite significant advances in modeling image priors via diffusion models, 3D-aware image editing remains challenging, in part because the object is only specified via a single image. To tackle this challenge, we propose 3D-Fixup, a new framework for editing 2D images guided by learned 3D priors. The framework supports difficult editing situations such as object translation and 3D rotation. To achieve this, we leverage a training-based approach that harnesses the generative power of diffusion models. As video data naturally encodes real-world physical dynamics, we turn to video data for generating training data pairs, i.e., a source and a target frame. Rather than relying solely on a single trained model to infer transformations between source and target frames, we incorporate 3D guidance from an Image-to-3D model, which bridges this challenging task by explicitly projecting 2D information into 3D space. We design a data generation pipeline to ensure high-quality 3D guidance throughout training. Results show that by integrating these 3D priors, 3D-Fixup effectively supports complex, identity coherent 3D-aware edits, achieving high-quality results and advancing the application of diffusion models in realistic image manipulation. The code is provided at https://3dfixup.github.io/

3D-Fixup: Fortschritt in der Fotobearbeitung durch 3D-Priors

3D-Fixup: Advancing Photo Editing with 3D Priors

Zusammenfassung

Support