GuideFlow3D: Flujo Rectificado Guiado por Optimización para la Transferencia de Apariencia
GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer
October 17, 2025
Autores: Sayan Deb Sarkar, Sinisa Stekovic, Vincent Lepetit, Iro Armeni
cs.AI
Resumen
La transferencia de apariencia a activos 3D utilizando diferentes representaciones del objeto de apariencia, como imágenes o texto, ha despertado interés debido a su amplia gama de aplicaciones en industrias como los videojuegos, la realidad aumentada y la creación de contenido digital. Sin embargo, los métodos más avanzados aún fallan cuando la geometría entre el objeto de entrada y el objeto de apariencia es significativamente diferente. Un enfoque directo es aplicar directamente un modelo generativo 3D, pero demostramos que esto finalmente no produce resultados atractivos. En su lugar, proponemos un enfoque fundamentado inspirado en la guía universal. Dado un modelo de flujo rectificado preentrenado condicionado por imágenes o texto, nuestro método libre de entrenamiento interactúa con el proceso de muestreo añadiendo guía periódicamente. Esta guía puede modelarse como una función de pérdida diferenciable, y experimentamos con dos tipos diferentes de guía, incluyendo pérdidas conscientes de partes para la apariencia y autosimilitud. Nuestros experimentos muestran que nuestro enfoque transfiere con éxito texturas y detalles geométricos al activo 3D de entrada, superando cualitativa y cuantitativamente a los métodos de referencia. También demostramos que las métricas tradicionales no son adecuadas para evaluar esta tarea debido a su incapacidad para enfocarse en detalles locales y comparar entradas disímiles, en ausencia de datos de referencia. Por lo tanto, evaluamos la calidad de la transferencia de apariencia con un sistema basado en GPT que clasifica objetivamente las salidas, asegurando una evaluación robusta y similar a la humana, como lo confirma nuestro estudio de usuarios. Más allá de los escenarios mostrados, nuestro método es general y podría extenderse a diferentes tipos de modelos de difusión y funciones de guía.
English
Transferring appearance to 3D assets using different representations of the
appearance object - such as images or text - has garnered interest due to its
wide range of applications in industries like gaming, augmented reality, and
digital content creation. However, state-of-the-art methods still fail when the
geometry between the input and appearance objects is significantly different. A
straightforward approach is to directly apply a 3D generative model, but we
show that this ultimately fails to produce appealing results. Instead, we
propose a principled approach inspired by universal guidance. Given a
pretrained rectified flow model conditioned on image or text, our training-free
method interacts with the sampling process by periodically adding guidance.
This guidance can be modeled as a differentiable loss function, and we
experiment with two different types of guidance including part-aware losses for
appearance and self-similarity. Our experiments show that our approach
successfully transfers texture and geometric details to the input 3D asset,
outperforming baselines both qualitatively and quantitatively. We also show
that traditional metrics are not suitable for evaluating the task due to their
inability of focusing on local details and comparing dissimilar inputs, in
absence of ground truth data. We thus evaluate appearance transfer quality with
a GPT-based system objectively ranking outputs, ensuring robust and human-like
assessment, as further confirmed by our user study. Beyond showcased scenarios,
our method is general and could be extended to different types of diffusion
models and guidance functions.