Tailor3D: Gepersonaliseerde 3D-assetbewerking en -generatie met dual-side afbeeldingen
Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images
July 8, 2024
Auteurs: Zhangyang Qi, Yunhan Yang, Mengchen Zhang, Long Xing, Xiaoyang Wu, Tong Wu, Dahua Lin, Xihui Liu, Jiaqi Wang, Hengshuang Zhao
cs.AI
Samenvatting
Recente ontwikkelingen in 3D AIGC hebben veelbelovende resultaten getoond in het direct creëren van 3D-objecten vanuit tekst en afbeeldingen, wat aanzienlijke kostenbesparingen biedt in animatie en productontwerp. Het gedetailleerd bewerken en aanpassen van 3D-assets blijft echter een langdurige uitdaging. Met name missen 3D-generatiemethoden het vermogen om gedetailleerde instructies zo precies te volgen als hun tegenhangers voor het maken van 2D-afbeeldingen. Stel je voor dat je een speelgoedobject kunt verkrijgen via 3D AIGC, maar met ongewenste accessoires en kleding. Om deze uitdaging aan te pakken, stellen we een nieuwe pipeline voor genaamd Tailor3D, die snel aangepaste 3D-assets creëert vanuit bewerkbare tweezijdige afbeeldingen. Ons doel is om het vermogen van een kleermaker na te bootsen om objecten lokaal aan te passen of een algemene stijloverdracht uit te voeren. In tegenstelling tot het creëren van 3D-assets vanuit meerdere aanzichten, elimineert het gebruik van tweezijdige afbeeldingen conflicten in overlappende gebieden die optreden bij het bewerken van individuele aanzichten. Specifiek begint het met het bewerken van het vooraanzicht, waarna het achteraanzicht van het object wordt gegenereerd via multi-view diffusie. Vervolgens wordt het achteraanzicht bewerkt. Ten slotte wordt een Dual-sided LRM voorgesteld om de voor- en achterkant van de 3D-kenmerken naadloos aan elkaar te verbinden, vergelijkbaar met een kleermaker die de voor- en achterkant van een kledingstuk aan elkaar naait. De Dual-sided LRM corrigeert imperfecte consistenties tussen de voor- en achteraanzichten, verbetert de bewerkingsmogelijkheden en vermindert de geheugenbelasting, terwijl ze naadloos worden geïntegreerd in een uniforme 3D-representatie met de LoRA Triplane Transformer. Experimentele resultaten tonen de effectiviteit van Tailor3D aan bij diverse 3D-generatie- en bewerkingstaken, waaronder 3D-generatieve vulling en stijloverdracht. Het biedt een gebruiksvriendelijke, efficiënte oplossing voor het bewerken van 3D-assets, waarbij elke bewerkingsstap slechts enkele seconden in beslag neemt.
English
Recent advances in 3D AIGC have shown promise in directly creating 3D objects
from text and images, offering significant cost savings in animation and
product design. However, detailed edit and customization of 3D assets remains a
long-standing challenge. Specifically, 3D Generation methods lack the ability
to follow finely detailed instructions as precisely as their 2D image creation
counterparts. Imagine you can get a toy through 3D AIGC but with undesired
accessories and dressing. To tackle this challenge, we propose a novel pipeline
called Tailor3D, which swiftly creates customized 3D assets from editable
dual-side images. We aim to emulate a tailor's ability to locally change
objects or perform overall style transfer. Unlike creating 3D assets from
multiple views, using dual-side images eliminates conflicts on overlapping
areas that occur when editing individual views. Specifically, it begins by
editing the front view, then generates the back view of the object through
multi-view diffusion. Afterward, it proceeds to edit the back views. Finally, a
Dual-sided LRM is proposed to seamlessly stitch together the front and back 3D
features, akin to a tailor sewing together the front and back of a garment. The
Dual-sided LRM rectifies imperfect consistencies between the front and back
views, enhancing editing capabilities and reducing memory burdens while
seamlessly integrating them into a unified 3D representation with the LoRA
Triplane Transformer. Experimental results demonstrate Tailor3D's effectiveness
across various 3D generation and editing tasks, including 3D generative fill
and style transfer. It provides a user-friendly, efficient solution for editing
3D assets, with each editing step taking only seconds to complete.