Repaint123: Generazione rapida e di alta qualità da un'immagine a 3D con ripittura 2D progressiva e controllabile
Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable 2D Repainting
December 20, 2023
Autori: Junwu Zhang, Zhenyu Tang, Yatian Pang, Xinhua Cheng, Peng Jin, Yida Wei, Wangbo Yu, Munan Ning, Li Yuan
cs.AI
Abstract
I recenti metodi di generazione 3D da una singola immagine comunemente adottano il campionamento per distillazione del punteggio (Score Distillation Sampling, SDS). Nonostante i risultati impressionanti, presentano diverse carenze, tra cui l'inconsistenza multi-vista, texture eccessivamente saturate e levigate, nonché una velocità di generazione lenta. Per affrontare queste carenze, presentiamo Repaint123, che mira a ridurre il bias multi-vista e il degrado delle texture, accelerando al contempo il processo di generazione. L'idea centrale è combinare la potente capacità di generazione di immagini del modello di diffusione 2D e l'abilità di allineamento delle texture della strategia di ripittura per generare immagini multi-vista di alta qualità e coerenti. Proponiamo inoltre una forza di ripittura adattiva basata sulla visibilità per le regioni sovrapposte, al fine di migliorare la qualità delle immagini generate durante il processo di ripittura. Le immagini generate, di alta qualità e coerenti multi-vista, consentono l'uso di una semplice perdita di errore quadratico medio (Mean Square Error, MSE) per una rapida generazione di contenuti 3D. Abbiamo condotto ampi esperimenti e dimostrato che il nostro metodo possiede una capacità superiore di generare contenuti 3D di alta qualità con coerenza multi-vista e texture dettagliate in 2 minuti partendo da zero. Il codice è disponibile all'indirizzo https://github.com/junwuzhang19/repaint123.
English
Recent one image to 3D generation methods commonly adopt Score Distillation
Sampling (SDS). Despite the impressive results, there are multiple deficiencies
including multi-view inconsistency, over-saturated and over-smoothed textures,
as well as the slow generation speed. To address these deficiencies, we present
Repaint123 to alleviate multi-view bias as well as texture degradation and
speed up the generation process. The core idea is to combine the powerful image
generation capability of the 2D diffusion model and the texture alignment
ability of the repainting strategy for generating high-quality multi-view
images with consistency. We further propose visibility-aware adaptive
repainting strength for overlap regions to enhance the generated image quality
in the repainting process. The generated high-quality and multi-view consistent
images enable the use of simple Mean Square Error (MSE) loss for fast 3D
content generation. We conduct extensive experiments and show that our method
has a superior ability to generate high-quality 3D content with multi-view
consistency and fine textures in 2 minutes from scratch. Code is at
https://github.com/junwuzhang19/repaint123.