ChatPaper.aiChatPaper

GuideFlow3D: Fluxo Retificado Orientado por Otimização para Transferência de Aparência

GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer

October 17, 2025
Autores: Sayan Deb Sarkar, Sinisa Stekovic, Vincent Lepetit, Iro Armeni
cs.AI

Resumo

A transferência de aparência para ativos 3D utilizando diferentes representações do objeto de aparência - como imagens ou texto - tem despertado interesse devido à sua ampla gama de aplicações em indústrias como jogos, realidade aumentada e criação de conteúdo digital. No entanto, os métodos mais avançados ainda falham quando a geometria entre o objeto de entrada e o objeto de aparência é significativamente diferente. Uma abordagem direta seria aplicar diretamente um modelo generativo 3D, mas demonstramos que isso acaba falhando em produzir resultados atraentes. Em vez disso, propomos uma abordagem fundamentada inspirada na orientação universal. Dado um modelo de fluxo retificado pré-treinado condicionado em imagem ou texto, nosso método livre de treinamento interage com o processo de amostragem adicionando orientação periodicamente. Essa orientação pode ser modelada como uma função de perda diferenciável, e experimentamos com dois tipos diferentes de orientação, incluindo perdas conscientes de partes para aparência e autossimilaridade. Nossos experimentos mostram que nossa abordagem transfere com sucesso textura e detalhes geométricos para o ativo 3D de entrada, superando as linhas de base tanto qualitativa quanto quantitativamente. Também mostramos que métricas tradicionais não são adequadas para avaliar a tarefa devido à sua incapacidade de focar em detalhes locais e comparar entradas diferentes, na ausência de dados de referência. Assim, avaliamos a qualidade da transferência de aparência com um sistema baseado em GPT que classifica as saídas objetivamente, garantindo uma avaliação robusta e semelhante à humana, conforme confirmado por nosso estudo com usuários. Além dos cenários apresentados, nosso método é geral e pode ser estendido para diferentes tipos de modelos de difusão e funções de orientação.
English
Transferring appearance to 3D assets using different representations of the appearance object - such as images or text - has garnered interest due to its wide range of applications in industries like gaming, augmented reality, and digital content creation. However, state-of-the-art methods still fail when the geometry between the input and appearance objects is significantly different. A straightforward approach is to directly apply a 3D generative model, but we show that this ultimately fails to produce appealing results. Instead, we propose a principled approach inspired by universal guidance. Given a pretrained rectified flow model conditioned on image or text, our training-free method interacts with the sampling process by periodically adding guidance. This guidance can be modeled as a differentiable loss function, and we experiment with two different types of guidance including part-aware losses for appearance and self-similarity. Our experiments show that our approach successfully transfers texture and geometric details to the input 3D asset, outperforming baselines both qualitatively and quantitatively. We also show that traditional metrics are not suitable for evaluating the task due to their inability of focusing on local details and comparing dissimilar inputs, in absence of ground truth data. We thus evaluate appearance transfer quality with a GPT-based system objectively ranking outputs, ensuring robust and human-like assessment, as further confirmed by our user study. Beyond showcased scenarios, our method is general and could be extended to different types of diffusion models and guidance functions.
PDF12October 21, 2025