ChatPaper.aiChatPaper

Tailor3D: Anpassung von 3D-Assets durch Bearbeitung und Generierung mit Dual-Side-Bildern

Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images

July 8, 2024
Autoren: Zhangyang Qi, Yunhan Yang, Mengchen Zhang, Long Xing, Xiaoyang Wu, Tong Wu, Dahua Lin, Xihui Liu, Jiaqi Wang, Hengshuang Zhao
cs.AI

Zusammenfassung

In jüngster Zeit haben Fortschritte in der 3D KI-gesteuerten Generierung gezeigt, dass sie vielversprechend direkt 3D-Objekte aus Text und Bildern erstellen kann, was erhebliche Kosteneinsparungen bei Animationen und Produktgestaltung bietet. Die detaillierte Bearbeitung und Anpassung von 3D-Ressourcen bleibt jedoch eine langjährige Herausforderung. Insbesondere fehlt es den 3D-Generierungsmethoden an der Fähigkeit, fein detaillierte Anweisungen so präzise zu befolgen wie ihre 2D-Bildgenerierungspendants. Stellen Sie sich vor, Sie könnten ein Spielzeug über 3D KI-gesteuerte Generierung erhalten, jedoch mit unerwünschtem Zubehör und Kleidung. Um diese Herausforderung anzugehen, schlagen wir eine neuartige Pipeline namens Tailor3D vor, die schnell maßgeschneiderte 3D-Ressourcen aus bearbeitbaren Dual-Seiten-Bildern erstellt. Unser Ziel ist es, die Fähigkeit eines Schneiders zu emulieren, Objekte lokal zu ändern oder einen Gesamtstiltransfer durchzuführen. Im Gegensatz zur Erstellung von 3D-Ressourcen aus mehreren Ansichten beseitigen die Verwendung von Dual-Seiten-Bildern Konflikte in überlappenden Bereichen, die bei der Bearbeitung einzelner Ansichten auftreten. Konkret beginnt der Prozess mit der Bearbeitung der Vorderansicht, generiert dann die Rückansicht des Objekts durch Multi-View-Diffusion. Anschließend wird mit der Bearbeitung der Rückansichten fortgefahren. Schließlich wird ein Dual-seitiges LRM vorgeschlagen, um die Vorder- und Rückansichten nahtlos zusammenzufügen, ähnlich wie ein Schneider Vorder- und Rückseite eines Kleidungsstücks zusammennäht. Das Dual-seitige LRM korrigiert unvollkommene Konsistenzen zwischen den Vorder- und Rückansichten, verbessert die Bearbeitungsmöglichkeiten und reduziert den Speicherbedarf, während es sie nahtlos in eine vereinheitlichte 3D-Repräsentation mit dem LoRA Triplane Transformer integriert. Experimentelle Ergebnisse zeigen die Wirksamkeit von Tailor3D bei verschiedenen 3D-Generierungs- und Bearbeitungsaufgaben, einschließlich 3D-generativer Füllungen und Stiltransfers. Es bietet eine benutzerfreundliche, effiziente Lösung für die Bearbeitung von 3D-Ressourcen, wobei jeder Bearbeitungsschritt nur Sekunden dauert.
English
Recent advances in 3D AIGC have shown promise in directly creating 3D objects from text and images, offering significant cost savings in animation and product design. However, detailed edit and customization of 3D assets remains a long-standing challenge. Specifically, 3D Generation methods lack the ability to follow finely detailed instructions as precisely as their 2D image creation counterparts. Imagine you can get a toy through 3D AIGC but with undesired accessories and dressing. To tackle this challenge, we propose a novel pipeline called Tailor3D, which swiftly creates customized 3D assets from editable dual-side images. We aim to emulate a tailor's ability to locally change objects or perform overall style transfer. Unlike creating 3D assets from multiple views, using dual-side images eliminates conflicts on overlapping areas that occur when editing individual views. Specifically, it begins by editing the front view, then generates the back view of the object through multi-view diffusion. Afterward, it proceeds to edit the back views. Finally, a Dual-sided LRM is proposed to seamlessly stitch together the front and back 3D features, akin to a tailor sewing together the front and back of a garment. The Dual-sided LRM rectifies imperfect consistencies between the front and back views, enhancing editing capabilities and reducing memory burdens while seamlessly integrating them into a unified 3D representation with the LoRA Triplane Transformer. Experimental results demonstrate Tailor3D's effectiveness across various 3D generation and editing tasks, including 3D generative fill and style transfer. It provides a user-friendly, efficient solution for editing 3D assets, with each editing step taking only seconds to complete.

Summary

AI-Generated Summary

PDF141November 28, 2024