GuideFlow3D: Оптимизационно-направленный Rectified Flow для переноса внешнего вида
GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer
October 17, 2025
Авторы: Sayan Deb Sarkar, Sinisa Stekovic, Vincent Lepetit, Iro Armeni
cs.AI
Аннотация
Перенос внешнего вида на 3D-объекты с использованием различных представлений объекта внешнего вида — таких как изображения или текст — вызывает интерес благодаря широкому спектру применений в таких отраслях, как игровая индустрия, дополненная реальность и создание цифрового контента. Однако современные методы всё ещё не справляются, когда геометрия между входным объектом и объектом внешнего вида значительно различается. Прямой подход заключается в непосредственном применении 3D-генеративной модели, но мы показываем, что это в конечном итоге не позволяет получить привлекательные результаты. Вместо этого мы предлагаем принципиальный подход, вдохновлённый универсальным управлением. Учитывая предварительно обученную модель исправленного потока, обусловленную изображением или текстом, наш метод, не требующий обучения, взаимодействует с процессом выборки, периодически добавляя управление. Это управление может быть смоделировано как дифференцируемая функция потерь, и мы экспериментируем с двумя различными типами управления, включая потери, учитывающие части для внешнего вида, и самоподобие. Наши эксперименты показывают, что наш подход успешно переносит текстуру и геометрические детали на входной 3D-объект, превосходя базовые методы как качественно, так и количественно. Мы также показываем, что традиционные метрики не подходят для оценки задачи из-за их неспособности фокусироваться на локальных деталях и сравнивать несходные входные данные при отсутствии эталонных данных. Поэтому мы оцениваем качество переноса внешнего вида с помощью системы на основе GPT, объективно ранжирующей выходные данные, что обеспечивает надёжную и человеко-подобную оценку, что дополнительно подтверждается нашим пользовательским исследованием. Помимо представленных сценариев, наш метод является общим и может быть расширен на различные типы диффузионных моделей и функций управления.
English
Transferring appearance to 3D assets using different representations of the
appearance object - such as images or text - has garnered interest due to its
wide range of applications in industries like gaming, augmented reality, and
digital content creation. However, state-of-the-art methods still fail when the
geometry between the input and appearance objects is significantly different. A
straightforward approach is to directly apply a 3D generative model, but we
show that this ultimately fails to produce appealing results. Instead, we
propose a principled approach inspired by universal guidance. Given a
pretrained rectified flow model conditioned on image or text, our training-free
method interacts with the sampling process by periodically adding guidance.
This guidance can be modeled as a differentiable loss function, and we
experiment with two different types of guidance including part-aware losses for
appearance and self-similarity. Our experiments show that our approach
successfully transfers texture and geometric details to the input 3D asset,
outperforming baselines both qualitatively and quantitatively. We also show
that traditional metrics are not suitable for evaluating the task due to their
inability of focusing on local details and comparing dissimilar inputs, in
absence of ground truth data. We thus evaluate appearance transfer quality with
a GPT-based system objectively ranking outputs, ensuring robust and human-like
assessment, as further confirmed by our user study. Beyond showcased scenarios,
our method is general and could be extended to different types of diffusion
models and guidance functions.