GuideFlow3D : Flux Rectifié Guidé par Optimisation pour le Transfert d'Apparence
GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer
October 17, 2025
papers.authors: Sayan Deb Sarkar, Sinisa Stekovic, Vincent Lepetit, Iro Armeni
cs.AI
papers.abstract
Le transfert d'apparence vers des actifs 3D en utilisant différentes représentations de l'objet d'apparence - telles que des images ou du texte - a suscité un intérêt croissant en raison de son large éventail d'applications dans des industries comme le jeu vidéo, la réalité augmentée et la création de contenu numérique. Cependant, les méthodes de pointe échouent encore lorsque la géométrie entre l'entrée et les objets d'apparence est significativement différente. Une approche directe consiste à appliquer directement un modèle génératif 3D, mais nous montrons que cela échoue finalement à produire des résultats convaincants. À la place, nous proposons une approche structurée inspirée par le guidage universel. Étant donné un modèle de flux rectifié pré-entraîné conditionné sur une image ou un texte, notre méthode sans entraînement interagit avec le processus d'échantillonnage en ajoutant périodiquement un guidage. Ce guidage peut être modélisé comme une fonction de perte différentiable, et nous expérimentons avec deux types de guidage, incluant des pertes sensibles aux parties pour l'apparence et la similarité intrinsèque. Nos expériences montrent que notre approche transfère avec succès la texture et les détails géométriques à l'actif 3D d'entrée, surpassant les méthodes de référence à la fois qualitativement et quantitativement. Nous montrons également que les métriques traditionnelles ne sont pas adaptées pour évaluer cette tâche en raison de leur incapacité à se concentrer sur les détails locaux et à comparer des entrées dissemblables, en l'absence de données de référence. Nous évaluons donc la qualité du transfert d'apparence avec un système basé sur GPT classant objectivement les résultats, assurant une évaluation robuste et proche de celle d'un humain, comme le confirme notre étude utilisateur. Au-delà des scénarios présentés, notre méthode est générale et pourrait être étendue à différents types de modèles de diffusion et fonctions de guidage.
English
Transferring appearance to 3D assets using different representations of the
appearance object - such as images or text - has garnered interest due to its
wide range of applications in industries like gaming, augmented reality, and
digital content creation. However, state-of-the-art methods still fail when the
geometry between the input and appearance objects is significantly different. A
straightforward approach is to directly apply a 3D generative model, but we
show that this ultimately fails to produce appealing results. Instead, we
propose a principled approach inspired by universal guidance. Given a
pretrained rectified flow model conditioned on image or text, our training-free
method interacts with the sampling process by periodically adding guidance.
This guidance can be modeled as a differentiable loss function, and we
experiment with two different types of guidance including part-aware losses for
appearance and self-similarity. Our experiments show that our approach
successfully transfers texture and geometric details to the input 3D asset,
outperforming baselines both qualitatively and quantitatively. We also show
that traditional metrics are not suitable for evaluating the task due to their
inability of focusing on local details and comparing dissimilar inputs, in
absence of ground truth data. We thus evaluate appearance transfer quality with
a GPT-based system objectively ranking outputs, ensuring robust and human-like
assessment, as further confirmed by our user study. Beyond showcased scenarios,
our method is general and could be extended to different types of diffusion
models and guidance functions.