GuideFlow3D: Flusso Rettificato Ottimizzato per il Trasferimento di Aspetto
GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer
October 17, 2025
Autori: Sayan Deb Sarkar, Sinisa Stekovic, Vincent Lepetit, Iro Armeni
cs.AI
Abstract
Il trasferimento dell'aspetto a risorse 3D utilizzando diverse rappresentazioni dell'oggetto di aspetto - come immagini o testo - ha suscitato interesse grazie alla sua vasta gamma di applicazioni in settori come i giochi, la realtà aumentata e la creazione di contenuti digitali. Tuttavia, i metodi più avanzati falliscono ancora quando la geometria tra l'input e gli oggetti di aspetto è significativamente diversa. Un approccio diretto consiste nell'applicare direttamente un modello generativo 3D, ma dimostriamo che questo alla fine non riesce a produrre risultati accattivanti. Proponiamo invece un approccio strutturato ispirato alla guida universale. Dato un modello di flusso rettificato pre-addestrato condizionato su immagini o testo, il nostro metodo senza addestramento interagisce con il processo di campionamento aggiungendo periodicamente una guida. Questa guida può essere modellata come una funzione di perdita differenziabile, e sperimentiamo con due diversi tipi di guida, inclusi perdite part-aware per l'aspetto e auto-similarità. I nostri esperimenti dimostrano che il nostro approccio trasferisce con successo texture e dettagli geometrici alla risorsa 3D di input, superando i baseline sia qualitativamente che quantitativamente. Mostriamo anche che le metriche tradizionali non sono adatte per valutare il compito a causa della loro incapacità di concentrarsi sui dettagli locali e di confrontare input dissimili, in assenza di dati di verità. Valutiamo quindi la qualità del trasferimento dell'aspetto con un sistema basato su GPT che classifica oggettivamente gli output, garantendo una valutazione robusta e simile a quella umana, come ulteriormente confermato dal nostro studio sugli utenti. Oltre agli scenari mostrati, il nostro metodo è generale e potrebbe essere esteso a diversi tipi di modelli di diffusione e funzioni di guida.
English
Transferring appearance to 3D assets using different representations of the
appearance object - such as images or text - has garnered interest due to its
wide range of applications in industries like gaming, augmented reality, and
digital content creation. However, state-of-the-art methods still fail when the
geometry between the input and appearance objects is significantly different. A
straightforward approach is to directly apply a 3D generative model, but we
show that this ultimately fails to produce appealing results. Instead, we
propose a principled approach inspired by universal guidance. Given a
pretrained rectified flow model conditioned on image or text, our training-free
method interacts with the sampling process by periodically adding guidance.
This guidance can be modeled as a differentiable loss function, and we
experiment with two different types of guidance including part-aware losses for
appearance and self-similarity. Our experiments show that our approach
successfully transfers texture and geometric details to the input 3D asset,
outperforming baselines both qualitatively and quantitatively. We also show
that traditional metrics are not suitable for evaluating the task due to their
inability of focusing on local details and comparing dissimilar inputs, in
absence of ground truth data. We thus evaluate appearance transfer quality with
a GPT-based system objectively ranking outputs, ensuring robust and human-like
assessment, as further confirmed by our user study. Beyond showcased scenarios,
our method is general and could be extended to different types of diffusion
models and guidance functions.