Tailor3D: Anpassung von 3D-Assets durch Bearbeitung und Generierung mit Dual-Side-Bildern
Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images
July 8, 2024
Autoren: Zhangyang Qi, Yunhan Yang, Mengchen Zhang, Long Xing, Xiaoyang Wu, Tong Wu, Dahua Lin, Xihui Liu, Jiaqi Wang, Hengshuang Zhao
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte in der 3D KI-gesteuerten Generierung gezeigt, dass sie vielversprechend direkt 3D-Objekte aus Text und Bildern erstellen kann, was erhebliche Kosteneinsparungen bei Animationen und Produktgestaltung bietet. Die detaillierte Bearbeitung und Anpassung von 3D-Ressourcen bleibt jedoch eine langjährige Herausforderung. Insbesondere fehlt es den 3D-Generierungsmethoden an der Fähigkeit, fein detaillierte Anweisungen so präzise zu befolgen wie ihre 2D-Bildgenerierungspendants. Stellen Sie sich vor, Sie könnten ein Spielzeug über 3D KI-gesteuerte Generierung erhalten, jedoch mit unerwünschtem Zubehör und Kleidung. Um diese Herausforderung anzugehen, schlagen wir eine neuartige Pipeline namens Tailor3D vor, die schnell maßgeschneiderte 3D-Ressourcen aus bearbeitbaren Dual-Seiten-Bildern erstellt. Unser Ziel ist es, die Fähigkeit eines Schneiders zu emulieren, Objekte lokal zu ändern oder einen Gesamtstiltransfer durchzuführen. Im Gegensatz zur Erstellung von 3D-Ressourcen aus mehreren Ansichten beseitigen die Verwendung von Dual-Seiten-Bildern Konflikte in überlappenden Bereichen, die bei der Bearbeitung einzelner Ansichten auftreten. Konkret beginnt der Prozess mit der Bearbeitung der Vorderansicht, generiert dann die Rückansicht des Objekts durch Multi-View-Diffusion. Anschließend wird mit der Bearbeitung der Rückansichten fortgefahren. Schließlich wird ein Dual-seitiges LRM vorgeschlagen, um die Vorder- und Rückansichten nahtlos zusammenzufügen, ähnlich wie ein Schneider Vorder- und Rückseite eines Kleidungsstücks zusammennäht. Das Dual-seitige LRM korrigiert unvollkommene Konsistenzen zwischen den Vorder- und Rückansichten, verbessert die Bearbeitungsmöglichkeiten und reduziert den Speicherbedarf, während es sie nahtlos in eine vereinheitlichte 3D-Repräsentation mit dem LoRA Triplane Transformer integriert. Experimentelle Ergebnisse zeigen die Wirksamkeit von Tailor3D bei verschiedenen 3D-Generierungs- und Bearbeitungsaufgaben, einschließlich 3D-generativer Füllungen und Stiltransfers. Es bietet eine benutzerfreundliche, effiziente Lösung für die Bearbeitung von 3D-Ressourcen, wobei jeder Bearbeitungsschritt nur Sekunden dauert.
English
Recent advances in 3D AIGC have shown promise in directly creating 3D objects
from text and images, offering significant cost savings in animation and
product design. However, detailed edit and customization of 3D assets remains a
long-standing challenge. Specifically, 3D Generation methods lack the ability
to follow finely detailed instructions as precisely as their 2D image creation
counterparts. Imagine you can get a toy through 3D AIGC but with undesired
accessories and dressing. To tackle this challenge, we propose a novel pipeline
called Tailor3D, which swiftly creates customized 3D assets from editable
dual-side images. We aim to emulate a tailor's ability to locally change
objects or perform overall style transfer. Unlike creating 3D assets from
multiple views, using dual-side images eliminates conflicts on overlapping
areas that occur when editing individual views. Specifically, it begins by
editing the front view, then generates the back view of the object through
multi-view diffusion. Afterward, it proceeds to edit the back views. Finally, a
Dual-sided LRM is proposed to seamlessly stitch together the front and back 3D
features, akin to a tailor sewing together the front and back of a garment. The
Dual-sided LRM rectifies imperfect consistencies between the front and back
views, enhancing editing capabilities and reducing memory burdens while
seamlessly integrating them into a unified 3D representation with the LoRA
Triplane Transformer. Experimental results demonstrate Tailor3D's effectiveness
across various 3D generation and editing tasks, including 3D generative fill
and style transfer. It provides a user-friendly, efficient solution for editing
3D assets, with each editing step taking only seconds to complete.Summary
AI-Generated Summary