ChatPaper.aiChatPaper

Styl3R: Мгновенная 3D-стилизованная реконструкция для произвольных сцен и стилей

Styl3R: Instant 3D Stylized Reconstruction for Arbitrary Scenes and Styles

May 27, 2025
Авторы: Peng Wang, Xiang Liu, Peidong Liu
cs.AI

Аннотация

Мгновенная стилизация 3D-сцен с сохранением согласованности между видами и точным воспроизведением стиля изображения остается серьезной задачей. Современные методы стилизации 3D обычно требуют вычислительно затратной оптимизации на этапе тестирования для переноса художественных особенностей в предварительно обученное 3D-представление, часто с использованием плотных наборов изображений с известными позами. В отличие от этого, используя последние достижения в моделях прямого восстановления, мы предлагаем новый подход, позволяющий достичь прямой стилизации 3D менее чем за секунду с использованием неориентированных изображений сцены с разреженными видами и произвольного стилевого изображения. Для решения проблемы разделения задач восстановления и стилизации мы вводим разветвленную архитектуру, которая разделяет моделирование структуры и затенение внешнего вида, эффективно предотвращая искажение базовой структуры 3D-сцены при переносе стиля. Кроме того, мы адаптируем функцию потерь идентичности для облегчения предварительного обучения модели стилизации через задачу синтеза новых видов. Эта стратегия также позволяет нашей модели сохранять исходные возможности восстановления, одновременно настраиваясь для стилизации. Комплексные оценки, проведенные на наборах данных как из домена, так и за его пределами, демонстрируют, что наш подход создает высококачественный стилизованный 3D-контент, который достигает превосходного сочетания стиля и внешнего вида сцены, а также превосходит существующие методы по согласованности между видами и эффективности.
English
Stylizing 3D scenes instantly while maintaining multi-view consistency and faithfully resembling a style image remains a significant challenge. Current state-of-the-art 3D stylization methods typically involve computationally intensive test-time optimization to transfer artistic features into a pretrained 3D representation, often requiring dense posed input images. In contrast, leveraging recent advances in feed-forward reconstruction models, we demonstrate a novel approach to achieve direct 3D stylization in less than a second using unposed sparse-view scene images and an arbitrary style image. To address the inherent decoupling between reconstruction and stylization, we introduce a branched architecture that separates structure modeling and appearance shading, effectively preventing stylistic transfer from distorting the underlying 3D scene structure. Furthermore, we adapt an identity loss to facilitate pre-training our stylization model through the novel view synthesis task. This strategy also allows our model to retain its original reconstruction capabilities while being fine-tuned for stylization. Comprehensive evaluations, using both in-domain and out-of-domain datasets, demonstrate that our approach produces high-quality stylized 3D content that achieve a superior blend of style and scene appearance, while also outperforming existing methods in terms of multi-view consistency and efficiency.

Summary

AI-Generated Summary

PDF42May 29, 2025