Repaint123: Быстрое и качественное преобразование одного изображения в 3D с использованием прогрессивного контролируемого 2D перерисовывания
Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable 2D Repainting
December 20, 2023
Авторы: Junwu Zhang, Zhenyu Tang, Yatian Pang, Xinhua Cheng, Peng Jin, Yida Wei, Wangbo Yu, Munan Ning, Li Yuan
cs.AI
Аннотация
Современные методы генерации 3D-моделей из одного изображения часто используют Score Distillation Sampling (SDS). Несмотря на впечатляющие результаты, они имеют ряд недостатков, включая несогласованность между видами, перенасыщенные и излишне сглаженные текстуры, а также низкую скорость генерации. Для устранения этих недостатков мы представляем метод Repaint123, который уменьшает смещение между видами, улучшает качество текстур и ускоряет процесс генерации. Основная идея заключается в сочетании мощных возможностей генерации изображений 2D-диффузионной модели и способности стратегии перерисовки выравнивать текстуры для создания высококачественных и согласованных изображений с разных ракурсов. Мы также предлагаем адаптивную силу перерисовки с учетом видимости для перекрывающихся областей, что повышает качество генерируемых изображений в процессе перерисовки. Полученные высококачественные и согласованные изображения позволяют использовать простую функцию потерь Mean Square Error (MSE) для быстрого создания 3D-контента. Мы провели обширные эксперименты и продемонстрировали, что наш метод способен генерировать высококачественный 3D-контент с согласованностью между видами и детализированными текстурами всего за 2 минуты с нуля. Код доступен по адресу https://github.com/junwuzhang19/repaint123.
English
Recent one image to 3D generation methods commonly adopt Score Distillation
Sampling (SDS). Despite the impressive results, there are multiple deficiencies
including multi-view inconsistency, over-saturated and over-smoothed textures,
as well as the slow generation speed. To address these deficiencies, we present
Repaint123 to alleviate multi-view bias as well as texture degradation and
speed up the generation process. The core idea is to combine the powerful image
generation capability of the 2D diffusion model and the texture alignment
ability of the repainting strategy for generating high-quality multi-view
images with consistency. We further propose visibility-aware adaptive
repainting strength for overlap regions to enhance the generated image quality
in the repainting process. The generated high-quality and multi-view consistent
images enable the use of simple Mean Square Error (MSE) loss for fast 3D
content generation. We conduct extensive experiments and show that our method
has a superior ability to generate high-quality 3D content with multi-view
consistency and fine textures in 2 minutes from scratch. Code is at
https://github.com/junwuzhang19/repaint123.