ChatPaper.aiChatPaper

GuideFlow3D: 외관 전이를 위한 최적화 기반 정류 흐름

GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer

October 17, 2025
저자: Sayan Deb Sarkar, Sinisa Stekovic, Vincent Lepetit, Iro Armeni
cs.AI

초록

외관 객체의 다양한 표현 방식(예: 이미지 또는 텍스트)을 사용하여 3D 자산에 외관을 전달하는 것은 게임, 증강 현실, 디지털 콘텐츠 제작과 같은 산업에서의 광범위한 응용 가능성으로 인해 관심을 끌고 있습니다. 그러나 입력 객체와 외관 객체 간의 기하학적 차이가 크면 최신 방법들도 실패하는 경우가 많습니다. 간단한 접근법으로 3D 생성 모델을 직접 적용하는 방법이 있지만, 이는 매력적인 결과를 생성하지 못한다는 것을 우리는 보여줍니다. 대신, 우리는 보편적 가이던스에서 영감을 받은 원칙적인 접근법을 제안합니다. 이미지 또는 텍스트를 조건으로 하는 사전 학습된 정류 흐름(rectified flow) 모델을 기반으로, 우리의 학습이 필요 없는 방법은 샘플링 과정에 주기적으로 가이던스를 추가하여 상호작용합니다. 이 가이던스는 미분 가능한 손실 함수로 모델링될 수 있으며, 우리는 외관을 위한 부분 인식 손실(part-aware loss)과 자기 유사성(self-similarity)을 포함한 두 가지 유형의 가이던스를 실험합니다. 우리의 실험 결과는 이 접근법이 입력 3D 자산에 질감과 기하학적 세부 사항을 성공적으로 전달하며, 질적 및 양적으로 기준선을 능가한다는 것을 보여줍니다. 또한, 전통적인 평가 지표는 이 작업을 평가하는 데 적합하지 않음을 보여줍니다. 이는 지표가 지역적 세부 사항에 초점을 맞추지 못하고, 실측 데이터가 없는 경우 서로 다른 입력을 비교할 수 없기 때문입니다. 따라서 우리는 GPT 기반 시스템을 사용하여 외관 전달 품질을 객관적으로 순위 매기는 방식으로 평가하여, 강력하고 인간과 유사한 평가를 보장합니다. 이는 사용자 연구를 통해 추가로 확인되었습니다. 제시된 시나리오를 넘어, 우리의 방법은 일반적이며 다양한 유형의 확산 모델과 가이던스 함수로 확장될 수 있습니다.
English
Transferring appearance to 3D assets using different representations of the appearance object - such as images or text - has garnered interest due to its wide range of applications in industries like gaming, augmented reality, and digital content creation. However, state-of-the-art methods still fail when the geometry between the input and appearance objects is significantly different. A straightforward approach is to directly apply a 3D generative model, but we show that this ultimately fails to produce appealing results. Instead, we propose a principled approach inspired by universal guidance. Given a pretrained rectified flow model conditioned on image or text, our training-free method interacts with the sampling process by periodically adding guidance. This guidance can be modeled as a differentiable loss function, and we experiment with two different types of guidance including part-aware losses for appearance and self-similarity. Our experiments show that our approach successfully transfers texture and geometric details to the input 3D asset, outperforming baselines both qualitatively and quantitatively. We also show that traditional metrics are not suitable for evaluating the task due to their inability of focusing on local details and comparing dissimilar inputs, in absence of ground truth data. We thus evaluate appearance transfer quality with a GPT-based system objectively ranking outputs, ensuring robust and human-like assessment, as further confirmed by our user study. Beyond showcased scenarios, our method is general and could be extended to different types of diffusion models and guidance functions.
PDF12October 21, 2025