Tailor3D: Personalizzazione e Generazione di Asset 3D con Immagini a Doppio Lato
Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images
July 8, 2024
Autori: Zhangyang Qi, Yunhan Yang, Mengchen Zhang, Long Xing, Xiaoyang Wu, Tong Wu, Dahua Lin, Xihui Liu, Jiaqi Wang, Hengshuang Zhao
cs.AI
Abstract
I recenti progressi nella generazione di contenuti 3D basata su intelligenza artificiale (3D AIGC) hanno mostrato promettenti risultati nella creazione diretta di oggetti 3D a partire da testo e immagini, offrendo significativi risparmi nei costi per l'animazione e il design di prodotti. Tuttavia, la modifica dettagliata e la personalizzazione degli asset 3D rimangono una sfida di lunga data. In particolare, i metodi di generazione 3D mancano della capacità di seguire istruzioni altamente dettagliate con la stessa precisione delle loro controparti per la creazione di immagini 2D. Immagina di poter ottenere un giocattolo tramite 3D AIGC, ma con accessori e vestiti indesiderati. Per affrontare questa sfida, proponiamo una nuova pipeline chiamata Tailor3D, che crea rapidamente asset 3D personalizzati a partire da immagini modificabili su entrambi i lati. Il nostro obiettivo è emulare la capacità di un sarto di modificare localmente gli oggetti o di eseguire un trasferimento di stile complessivo. A differenza della creazione di asset 3D da più viste, l'uso di immagini su entrambi i lati elimina i conflitti nelle aree sovrapposte che si verificano quando si modificano singole viste. Nello specifico, il processo inizia modificando la vista frontale, poi genera la vista posteriore dell'oggetto attraverso la diffusione multi-vista. Successivamente, procede a modificare le viste posteriori. Infine, viene proposto un Dual-sided LRM per cucire insieme in modo fluido le caratteristiche 3D frontali e posteriori, simile a un sarto che cuce insieme il davanti e il retro di un indumento. Il Dual-sided LRM corregge le imperfette consistenze tra le viste frontali e posteriori, migliorando le capacità di modifica e riducendo il carico di memoria, integrandole in modo fluido in una rappresentazione 3D unificata con il LoRA Triplane Transformer. I risultati sperimentali dimostrano l'efficacia di Tailor3D in vari compiti di generazione e modifica 3D, inclusi il riempimento generativo 3D e il trasferimento di stile. Offre una soluzione user-friendly ed efficiente per la modifica di asset 3D, con ogni passo di modifica che richiede solo pochi secondi per essere completato.
English
Recent advances in 3D AIGC have shown promise in directly creating 3D objects
from text and images, offering significant cost savings in animation and
product design. However, detailed edit and customization of 3D assets remains a
long-standing challenge. Specifically, 3D Generation methods lack the ability
to follow finely detailed instructions as precisely as their 2D image creation
counterparts. Imagine you can get a toy through 3D AIGC but with undesired
accessories and dressing. To tackle this challenge, we propose a novel pipeline
called Tailor3D, which swiftly creates customized 3D assets from editable
dual-side images. We aim to emulate a tailor's ability to locally change
objects or perform overall style transfer. Unlike creating 3D assets from
multiple views, using dual-side images eliminates conflicts on overlapping
areas that occur when editing individual views. Specifically, it begins by
editing the front view, then generates the back view of the object through
multi-view diffusion. Afterward, it proceeds to edit the back views. Finally, a
Dual-sided LRM is proposed to seamlessly stitch together the front and back 3D
features, akin to a tailor sewing together the front and back of a garment. The
Dual-sided LRM rectifies imperfect consistencies between the front and back
views, enhancing editing capabilities and reducing memory burdens while
seamlessly integrating them into a unified 3D representation with the LoRA
Triplane Transformer. Experimental results demonstrate Tailor3D's effectiveness
across various 3D generation and editing tasks, including 3D generative fill
and style transfer. It provides a user-friendly, efficient solution for editing
3D assets, with each editing step taking only seconds to complete.