ChatPaper.aiChatPaper

3D-Fixup: Avanzamenti nel Fotoritocco con Prior 3D

3D-Fixup: Advancing Photo Editing with 3D Priors

May 15, 2025
Autori: Yen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alex Schwing, Liangyan Gui, Matheus Gadelha, Paul Guerrero, Nanxuan Zhao
cs.AI

Abstract

Nonostante i significativi progressi nella modellazione dei priori di immagine attraverso i modelli di diffusione, la modifica di immagini con consapevolezza 3D rimane una sfida, in parte perché l'oggetto è specificato solo tramite una singola immagine. Per affrontare questa sfida, proponiamo 3D-Fixup, un nuovo framework per la modifica di immagini 2D guidato da priori 3D appresi. Il framework supporta situazioni di modifica complesse come la traslazione dell'oggetto e la rotazione 3D. Per raggiungere questo obiettivo, sfruttiamo un approccio basato sull'addestramento che utilizza la potenza generativa dei modelli di diffusione. Poiché i dati video codificano naturalmente le dinamiche fisiche del mondo reale, ci rivolgiamo ai dati video per generare coppie di dati di addestramento, ovvero un frame sorgente e un frame target. Piuttosto che affidarci esclusivamente a un singolo modello addestrato per inferire le trasformazioni tra i frame sorgente e target, incorporiamo una guida 3D da un modello Image-to-3D, che colma questa sfida proiettando esplicitamente le informazioni 2D nello spazio 3D. Progettiamo una pipeline di generazione dati per garantire una guida 3D di alta qualità durante l'addestramento. I risultati mostrano che, integrando questi priori 3D, 3D-Fixup supporta efficacemente modifiche complesse e coerenti con l'identità, ottenendo risultati di alta qualità e avanzando l'applicazione dei modelli di diffusione nella manipolazione realistica delle immagini. Il codice è disponibile all'indirizzo https://3dfixup.github.io/
English
Despite significant advances in modeling image priors via diffusion models, 3D-aware image editing remains challenging, in part because the object is only specified via a single image. To tackle this challenge, we propose 3D-Fixup, a new framework for editing 2D images guided by learned 3D priors. The framework supports difficult editing situations such as object translation and 3D rotation. To achieve this, we leverage a training-based approach that harnesses the generative power of diffusion models. As video data naturally encodes real-world physical dynamics, we turn to video data for generating training data pairs, i.e., a source and a target frame. Rather than relying solely on a single trained model to infer transformations between source and target frames, we incorporate 3D guidance from an Image-to-3D model, which bridges this challenging task by explicitly projecting 2D information into 3D space. We design a data generation pipeline to ensure high-quality 3D guidance throughout training. Results show that by integrating these 3D priors, 3D-Fixup effectively supports complex, identity coherent 3D-aware edits, achieving high-quality results and advancing the application of diffusion models in realistic image manipulation. The code is provided at https://3dfixup.github.io/
PDF72May 16, 2025