ChatPaper.aiChatPaper

Tailor3D: Gepersonaliseerde 3D-assetbewerking en -generatie met dual-side afbeeldingen

Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images

July 8, 2024
Auteurs: Zhangyang Qi, Yunhan Yang, Mengchen Zhang, Long Xing, Xiaoyang Wu, Tong Wu, Dahua Lin, Xihui Liu, Jiaqi Wang, Hengshuang Zhao
cs.AI

Samenvatting

Recente ontwikkelingen in 3D AIGC hebben veelbelovende resultaten getoond in het direct creëren van 3D-objecten vanuit tekst en afbeeldingen, wat aanzienlijke kostenbesparingen biedt in animatie en productontwerp. Het gedetailleerd bewerken en aanpassen van 3D-assets blijft echter een langdurige uitdaging. Met name missen 3D-generatiemethoden het vermogen om gedetailleerde instructies zo precies te volgen als hun tegenhangers voor het maken van 2D-afbeeldingen. Stel je voor dat je een speelgoedobject kunt verkrijgen via 3D AIGC, maar met ongewenste accessoires en kleding. Om deze uitdaging aan te pakken, stellen we een nieuwe pipeline voor genaamd Tailor3D, die snel aangepaste 3D-assets creëert vanuit bewerkbare tweezijdige afbeeldingen. Ons doel is om het vermogen van een kleermaker na te bootsen om objecten lokaal aan te passen of een algemene stijloverdracht uit te voeren. In tegenstelling tot het creëren van 3D-assets vanuit meerdere aanzichten, elimineert het gebruik van tweezijdige afbeeldingen conflicten in overlappende gebieden die optreden bij het bewerken van individuele aanzichten. Specifiek begint het met het bewerken van het vooraanzicht, waarna het achteraanzicht van het object wordt gegenereerd via multi-view diffusie. Vervolgens wordt het achteraanzicht bewerkt. Ten slotte wordt een Dual-sided LRM voorgesteld om de voor- en achterkant van de 3D-kenmerken naadloos aan elkaar te verbinden, vergelijkbaar met een kleermaker die de voor- en achterkant van een kledingstuk aan elkaar naait. De Dual-sided LRM corrigeert imperfecte consistenties tussen de voor- en achteraanzichten, verbetert de bewerkingsmogelijkheden en vermindert de geheugenbelasting, terwijl ze naadloos worden geïntegreerd in een uniforme 3D-representatie met de LoRA Triplane Transformer. Experimentele resultaten tonen de effectiviteit van Tailor3D aan bij diverse 3D-generatie- en bewerkingstaken, waaronder 3D-generatieve vulling en stijloverdracht. Het biedt een gebruiksvriendelijke, efficiënte oplossing voor het bewerken van 3D-assets, waarbij elke bewerkingsstap slechts enkele seconden in beslag neemt.
English
Recent advances in 3D AIGC have shown promise in directly creating 3D objects from text and images, offering significant cost savings in animation and product design. However, detailed edit and customization of 3D assets remains a long-standing challenge. Specifically, 3D Generation methods lack the ability to follow finely detailed instructions as precisely as their 2D image creation counterparts. Imagine you can get a toy through 3D AIGC but with undesired accessories and dressing. To tackle this challenge, we propose a novel pipeline called Tailor3D, which swiftly creates customized 3D assets from editable dual-side images. We aim to emulate a tailor's ability to locally change objects or perform overall style transfer. Unlike creating 3D assets from multiple views, using dual-side images eliminates conflicts on overlapping areas that occur when editing individual views. Specifically, it begins by editing the front view, then generates the back view of the object through multi-view diffusion. Afterward, it proceeds to edit the back views. Finally, a Dual-sided LRM is proposed to seamlessly stitch together the front and back 3D features, akin to a tailor sewing together the front and back of a garment. The Dual-sided LRM rectifies imperfect consistencies between the front and back views, enhancing editing capabilities and reducing memory burdens while seamlessly integrating them into a unified 3D representation with the LoRA Triplane Transformer. Experimental results demonstrate Tailor3D's effectiveness across various 3D generation and editing tasks, including 3D generative fill and style transfer. It provides a user-friendly, efficient solution for editing 3D assets, with each editing step taking only seconds to complete.
PDF141November 28, 2024