3D-Fixup: Vooruitgang in Fotobewerking met 3D-Priors

Samenvatting

Ondanks aanzienlijke vooruitgang in het modelleren van beeldprioriteiten via diffusiemodellen, blijft 3D-bewust beeldbewerken een uitdaging, deels omdat het object slechts via één afbeelding wordt gespecificeerd. Om deze uitdaging aan te pakken, stellen we 3D-Fixup voor, een nieuw raamwerk voor het bewerken van 2D-afbeeldingen geleid door geleerde 3D-prioriteiten. Het raamwerk ondersteunt moeilijke bewerkingssituaties zoals objecttranslatie en 3D-rotatie. Om dit te bereiken, benutten we een trainingsgebaseerde aanpak die de generatieve kracht van diffusiemodellen benut. Aangezien videodata van nature de fysieke dynamiek van de echte wereld vastlegt, wenden we ons tot videodata voor het genereren van trainingsdataparen, d.w.z. een bron- en een doelbeeld. In plaats van uitsluitend te vertrouwen op één getraind model om transformaties tussen bron- en doelbeelden af te leiden, integreren we 3D-begeleiding van een Image-to-3D-model, dat deze uitdagende taak overbrugt door expliciet 2D-informatie in 3D-ruimte te projecteren. We ontwerpen een datageneratiepijplijn om hoogwaardige 3D-begeleiding gedurende de training te waarborgen. Resultaten tonen aan dat door het integreren van deze 3D-prioriteiten, 3D-Fixup effectief complexe, identiteitscoherente 3D-bewuste bewerkingen ondersteunt, waardoor hoogwaardige resultaten worden bereikt en de toepassing van diffusiemodellen in realistische beeldmanipulatie wordt bevorderd. De code is beschikbaar op https://3dfixup.github.io/.

English

Despite significant advances in modeling image priors via diffusion models, 3D-aware image editing remains challenging, in part because the object is only specified via a single image. To tackle this challenge, we propose 3D-Fixup, a new framework for editing 2D images guided by learned 3D priors. The framework supports difficult editing situations such as object translation and 3D rotation. To achieve this, we leverage a training-based approach that harnesses the generative power of diffusion models. As video data naturally encodes real-world physical dynamics, we turn to video data for generating training data pairs, i.e., a source and a target frame. Rather than relying solely on a single trained model to infer transformations between source and target frames, we incorporate 3D guidance from an Image-to-3D model, which bridges this challenging task by explicitly projecting 2D information into 3D space. We design a data generation pipeline to ensure high-quality 3D guidance throughout training. Results show that by integrating these 3D priors, 3D-Fixup effectively supports complex, identity coherent 3D-aware edits, achieving high-quality results and advancing the application of diffusion models in realistic image manipulation. The code is provided at https://3dfixup.github.io/

3D-Fixup: Vooruitgang in Fotobewerking met 3D-Priors

3D-Fixup: Advancing Photo Editing with 3D Priors

Samenvatting

Support