ChatPaper.aiChatPaper

GuideFlow3D: Flujo Rectificado Guiado por Optimización para la Transferencia de Apariencia

GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer

October 17, 2025
Autores: Sayan Deb Sarkar, Sinisa Stekovic, Vincent Lepetit, Iro Armeni
cs.AI

Resumen

La transferencia de apariencia a activos 3D utilizando diferentes representaciones del objeto de apariencia, como imágenes o texto, ha despertado interés debido a su amplia gama de aplicaciones en industrias como los videojuegos, la realidad aumentada y la creación de contenido digital. Sin embargo, los métodos más avanzados aún fallan cuando la geometría entre el objeto de entrada y el objeto de apariencia es significativamente diferente. Un enfoque directo es aplicar directamente un modelo generativo 3D, pero demostramos que esto finalmente no produce resultados atractivos. En su lugar, proponemos un enfoque fundamentado inspirado en la guía universal. Dado un modelo de flujo rectificado preentrenado condicionado por imágenes o texto, nuestro método libre de entrenamiento interactúa con el proceso de muestreo añadiendo guía periódicamente. Esta guía puede modelarse como una función de pérdida diferenciable, y experimentamos con dos tipos diferentes de guía, incluyendo pérdidas conscientes de partes para la apariencia y autosimilitud. Nuestros experimentos muestran que nuestro enfoque transfiere con éxito texturas y detalles geométricos al activo 3D de entrada, superando cualitativa y cuantitativamente a los métodos de referencia. También demostramos que las métricas tradicionales no son adecuadas para evaluar esta tarea debido a su incapacidad para enfocarse en detalles locales y comparar entradas disímiles, en ausencia de datos de referencia. Por lo tanto, evaluamos la calidad de la transferencia de apariencia con un sistema basado en GPT que clasifica objetivamente las salidas, asegurando una evaluación robusta y similar a la humana, como lo confirma nuestro estudio de usuarios. Más allá de los escenarios mostrados, nuestro método es general y podría extenderse a diferentes tipos de modelos de difusión y funciones de guía.
English
Transferring appearance to 3D assets using different representations of the appearance object - such as images or text - has garnered interest due to its wide range of applications in industries like gaming, augmented reality, and digital content creation. However, state-of-the-art methods still fail when the geometry between the input and appearance objects is significantly different. A straightforward approach is to directly apply a 3D generative model, but we show that this ultimately fails to produce appealing results. Instead, we propose a principled approach inspired by universal guidance. Given a pretrained rectified flow model conditioned on image or text, our training-free method interacts with the sampling process by periodically adding guidance. This guidance can be modeled as a differentiable loss function, and we experiment with two different types of guidance including part-aware losses for appearance and self-similarity. Our experiments show that our approach successfully transfers texture and geometric details to the input 3D asset, outperforming baselines both qualitatively and quantitatively. We also show that traditional metrics are not suitable for evaluating the task due to their inability of focusing on local details and comparing dissimilar inputs, in absence of ground truth data. We thus evaluate appearance transfer quality with a GPT-based system objectively ranking outputs, ensuring robust and human-like assessment, as further confirmed by our user study. Beyond showcased scenarios, our method is general and could be extended to different types of diffusion models and guidance functions.
PDF12October 21, 2025