3D-Fixup: Vooruitgang in Fotobewerking met 3D-Priors
3D-Fixup: Advancing Photo Editing with 3D Priors
May 15, 2025
Auteurs: Yen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alex Schwing, Liangyan Gui, Matheus Gadelha, Paul Guerrero, Nanxuan Zhao
cs.AI
Samenvatting
Ondanks aanzienlijke vooruitgang in het modelleren van beeldprioriteiten via diffusiemodellen, blijft 3D-bewust beeldbewerken een uitdaging, deels omdat het object slechts via één afbeelding wordt gespecificeerd. Om deze uitdaging aan te pakken, stellen we 3D-Fixup voor, een nieuw raamwerk voor het bewerken van 2D-afbeeldingen geleid door geleerde 3D-prioriteiten. Het raamwerk ondersteunt moeilijke bewerkingssituaties zoals objecttranslatie en 3D-rotatie. Om dit te bereiken, benutten we een trainingsgebaseerde aanpak die de generatieve kracht van diffusiemodellen benut. Aangezien videodata van nature de fysieke dynamiek van de echte wereld vastlegt, wenden we ons tot videodata voor het genereren van trainingsdataparen, d.w.z. een bron- en een doelbeeld. In plaats van uitsluitend te vertrouwen op één getraind model om transformaties tussen bron- en doelbeelden af te leiden, integreren we 3D-begeleiding van een Image-to-3D-model, dat deze uitdagende taak overbrugt door expliciet 2D-informatie in 3D-ruimte te projecteren. We ontwerpen een datageneratiepijplijn om hoogwaardige 3D-begeleiding gedurende de training te waarborgen. Resultaten tonen aan dat door het integreren van deze 3D-prioriteiten, 3D-Fixup effectief complexe, identiteitscoherente 3D-bewuste bewerkingen ondersteunt, waardoor hoogwaardige resultaten worden bereikt en de toepassing van diffusiemodellen in realistische beeldmanipulatie wordt bevorderd. De code is beschikbaar op https://3dfixup.github.io/.
English
Despite significant advances in modeling image priors via diffusion models,
3D-aware image editing remains challenging, in part because the object is only
specified via a single image. To tackle this challenge, we propose 3D-Fixup, a
new framework for editing 2D images guided by learned 3D priors. The framework
supports difficult editing situations such as object translation and 3D
rotation. To achieve this, we leverage a training-based approach that harnesses
the generative power of diffusion models. As video data naturally encodes
real-world physical dynamics, we turn to video data for generating training
data pairs, i.e., a source and a target frame. Rather than relying solely on a
single trained model to infer transformations between source and target frames,
we incorporate 3D guidance from an Image-to-3D model, which bridges this
challenging task by explicitly projecting 2D information into 3D space. We
design a data generation pipeline to ensure high-quality 3D guidance throughout
training. Results show that by integrating these 3D priors, 3D-Fixup
effectively supports complex, identity coherent 3D-aware edits, achieving
high-quality results and advancing the application of diffusion models in
realistic image manipulation. The code is provided at
https://3dfixup.github.io/