ChatPaper.aiChatPaper

GuideFlow3D: Optimierungsgesteuerter Rectified Flow für die Erscheinungsübertragung

GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer

October 17, 2025
papers.authors: Sayan Deb Sarkar, Sinisa Stekovic, Vincent Lepetit, Iro Armeni
cs.AI

papers.abstract

Das Übertragen von Erscheinungsbildern auf 3D-Assets unter Verwendung verschiedener Darstellungen des Erscheinungsobjekts – wie Bilder oder Text – hat aufgrund seiner breiten Anwendungsmöglichkeiten in Branchen wie Gaming, Augmented Reality und digitaler Inhaltserstellung Interesse geweckt. Allerdings scheitern state-of-the-art Methoden immer noch, wenn die Geometrie zwischen dem Eingabe- und dem Erscheinungsobjekt signifikant unterschiedlich ist. Ein einfacher Ansatz besteht darin, direkt ein 3D-Generierungsmodell anzuwenden, aber wir zeigen, dass dies letztendlich nicht zu ansprechenden Ergebnissen führt. Stattdessen schlagen wir einen prinzipiellen Ansatz vor, der von universeller Führung inspiriert ist. Gegeben ein vortrainiertes Rectified-Flow-Modell, das auf Bildern oder Text basiert, interagiert unsere trainingsfreie Methode mit dem Sampling-Prozess, indem sie periodisch Führung hinzufügt. Diese Führung kann als eine differenzierbare Verlustfunktion modelliert werden, und wir experimentieren mit zwei verschiedenen Arten von Führung, einschließlich teilbewusster Verluste für das Erscheinungsbild und Selbstähnlichkeit. Unsere Experimente zeigen, dass unser Ansatz erfolgreich Textur- und geometrische Details auf das Eingabe-3D-Asset überträgt und dabei die Baseline-Methoden sowohl qualitativ als auch quantitativ übertrifft. Wir zeigen auch, dass traditionelle Metriken für die Bewertung dieser Aufgabe ungeeignet sind, da sie nicht in der Lage sind, sich auf lokale Details zu konzentrieren und unterschiedliche Eingaben in Abwesenheit von Ground-Truth-Daten zu vergleichen. Daher bewerten wir die Qualität der Erscheinungsübertragung mit einem GPT-basierten System, das die Ausgaben objektiv einstuft, wodurch eine robuste und menschenähnliche Bewertung sichergestellt wird, wie durch unsere Benutzerstudie weiter bestätigt wird. Über die gezeigten Szenarien hinaus ist unsere Methode allgemein und könnte auf verschiedene Arten von Diffusionsmodellen und Führungsfunktionen erweitert werden.
English
Transferring appearance to 3D assets using different representations of the appearance object - such as images or text - has garnered interest due to its wide range of applications in industries like gaming, augmented reality, and digital content creation. However, state-of-the-art methods still fail when the geometry between the input and appearance objects is significantly different. A straightforward approach is to directly apply a 3D generative model, but we show that this ultimately fails to produce appealing results. Instead, we propose a principled approach inspired by universal guidance. Given a pretrained rectified flow model conditioned on image or text, our training-free method interacts with the sampling process by periodically adding guidance. This guidance can be modeled as a differentiable loss function, and we experiment with two different types of guidance including part-aware losses for appearance and self-similarity. Our experiments show that our approach successfully transfers texture and geometric details to the input 3D asset, outperforming baselines both qualitatively and quantitatively. We also show that traditional metrics are not suitable for evaluating the task due to their inability of focusing on local details and comparing dissimilar inputs, in absence of ground truth data. We thus evaluate appearance transfer quality with a GPT-based system objectively ranking outputs, ensuring robust and human-like assessment, as further confirmed by our user study. Beyond showcased scenarios, our method is general and could be extended to different types of diffusion models and guidance functions.
PDF12October 21, 2025