ChatPaper.aiChatPaper

GuideFlow3D : Flux Rectifié Guidé par Optimisation pour le Transfert d'Apparence

GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer

October 17, 2025
papers.authors: Sayan Deb Sarkar, Sinisa Stekovic, Vincent Lepetit, Iro Armeni
cs.AI

papers.abstract

Le transfert d'apparence vers des actifs 3D en utilisant différentes représentations de l'objet d'apparence - telles que des images ou du texte - a suscité un intérêt croissant en raison de son large éventail d'applications dans des industries comme le jeu vidéo, la réalité augmentée et la création de contenu numérique. Cependant, les méthodes de pointe échouent encore lorsque la géométrie entre l'entrée et les objets d'apparence est significativement différente. Une approche directe consiste à appliquer directement un modèle génératif 3D, mais nous montrons que cela échoue finalement à produire des résultats convaincants. À la place, nous proposons une approche structurée inspirée par le guidage universel. Étant donné un modèle de flux rectifié pré-entraîné conditionné sur une image ou un texte, notre méthode sans entraînement interagit avec le processus d'échantillonnage en ajoutant périodiquement un guidage. Ce guidage peut être modélisé comme une fonction de perte différentiable, et nous expérimentons avec deux types de guidage, incluant des pertes sensibles aux parties pour l'apparence et la similarité intrinsèque. Nos expériences montrent que notre approche transfère avec succès la texture et les détails géométriques à l'actif 3D d'entrée, surpassant les méthodes de référence à la fois qualitativement et quantitativement. Nous montrons également que les métriques traditionnelles ne sont pas adaptées pour évaluer cette tâche en raison de leur incapacité à se concentrer sur les détails locaux et à comparer des entrées dissemblables, en l'absence de données de référence. Nous évaluons donc la qualité du transfert d'apparence avec un système basé sur GPT classant objectivement les résultats, assurant une évaluation robuste et proche de celle d'un humain, comme le confirme notre étude utilisateur. Au-delà des scénarios présentés, notre méthode est générale et pourrait être étendue à différents types de modèles de diffusion et fonctions de guidage.
English
Transferring appearance to 3D assets using different representations of the appearance object - such as images or text - has garnered interest due to its wide range of applications in industries like gaming, augmented reality, and digital content creation. However, state-of-the-art methods still fail when the geometry between the input and appearance objects is significantly different. A straightforward approach is to directly apply a 3D generative model, but we show that this ultimately fails to produce appealing results. Instead, we propose a principled approach inspired by universal guidance. Given a pretrained rectified flow model conditioned on image or text, our training-free method interacts with the sampling process by periodically adding guidance. This guidance can be modeled as a differentiable loss function, and we experiment with two different types of guidance including part-aware losses for appearance and self-similarity. Our experiments show that our approach successfully transfers texture and geometric details to the input 3D asset, outperforming baselines both qualitatively and quantitatively. We also show that traditional metrics are not suitable for evaluating the task due to their inability of focusing on local details and comparing dissimilar inputs, in absence of ground truth data. We thus evaluate appearance transfer quality with a GPT-based system objectively ranking outputs, ensuring robust and human-like assessment, as further confirmed by our user study. Beyond showcased scenarios, our method is general and could be extended to different types of diffusion models and guidance functions.
PDF12October 21, 2025