GuideFlow3D: Flusso Rettificato Ottimizzato per il Trasferimento di Aspetto

Abstract

Il trasferimento dell'aspetto a risorse 3D utilizzando diverse rappresentazioni dell'oggetto di aspetto - come immagini o testo - ha suscitato interesse grazie alla sua vasta gamma di applicazioni in settori come i giochi, la realtà aumentata e la creazione di contenuti digitali. Tuttavia, i metodi più avanzati falliscono ancora quando la geometria tra l'input e gli oggetti di aspetto è significativamente diversa. Un approccio diretto consiste nell'applicare direttamente un modello generativo 3D, ma dimostriamo che questo alla fine non riesce a produrre risultati accattivanti. Proponiamo invece un approccio strutturato ispirato alla guida universale. Dato un modello di flusso rettificato pre-addestrato condizionato su immagini o testo, il nostro metodo senza addestramento interagisce con il processo di campionamento aggiungendo periodicamente una guida. Questa guida può essere modellata come una funzione di perdita differenziabile, e sperimentiamo con due diversi tipi di guida, inclusi perdite part-aware per l'aspetto e auto-similarità. I nostri esperimenti dimostrano che il nostro approccio trasferisce con successo texture e dettagli geometrici alla risorsa 3D di input, superando i baseline sia qualitativamente che quantitativamente. Mostriamo anche che le metriche tradizionali non sono adatte per valutare il compito a causa della loro incapacità di concentrarsi sui dettagli locali e di confrontare input dissimili, in assenza di dati di verità. Valutiamo quindi la qualità del trasferimento dell'aspetto con un sistema basato su GPT che classifica oggettivamente gli output, garantendo una valutazione robusta e simile a quella umana, come ulteriormente confermato dal nostro studio sugli utenti. Oltre agli scenari mostrati, il nostro metodo è generale e potrebbe essere esteso a diversi tipi di modelli di diffusione e funzioni di guida.

English

Transferring appearance to 3D assets using different representations of the appearance object - such as images or text - has garnered interest due to its wide range of applications in industries like gaming, augmented reality, and digital content creation. However, state-of-the-art methods still fail when the geometry between the input and appearance objects is significantly different. A straightforward approach is to directly apply a 3D generative model, but we show that this ultimately fails to produce appealing results. Instead, we propose a principled approach inspired by universal guidance. Given a pretrained rectified flow model conditioned on image or text, our training-free method interacts with the sampling process by periodically adding guidance. This guidance can be modeled as a differentiable loss function, and we experiment with two different types of guidance including part-aware losses for appearance and self-similarity. Our experiments show that our approach successfully transfers texture and geometric details to the input 3D asset, outperforming baselines both qualitatively and quantitatively. We also show that traditional metrics are not suitable for evaluating the task due to their inability of focusing on local details and comparing dissimilar inputs, in absence of ground truth data. We thus evaluate appearance transfer quality with a GPT-based system objectively ranking outputs, ensuring robust and human-like assessment, as further confirmed by our user study. Beyond showcased scenarios, our method is general and could be extended to different types of diffusion models and guidance functions.

GuideFlow3D: Flusso Rettificato Ottimizzato per il Trasferimento di Aspetto

GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer

Abstract

Support