ChatPaper.aiChatPaper

Tailor3D : Édition et génération d'actifs 3D personnalisés avec des images bidirectionnelles

Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images

July 8, 2024
Auteurs: Zhangyang Qi, Yunhan Yang, Mengchen Zhang, Long Xing, Xiaoyang Wu, Tong Wu, Dahua Lin, Xihui Liu, Jiaqi Wang, Hengshuang Zhao
cs.AI

Résumé

Les récentes avancées dans le domaine de la génération de contenu 3D par IA (3D AIGC) ont montré un potentiel prometteur pour créer directement des objets 3D à partir de textes et d'images, offrant ainsi des économies significatives dans les domaines de l'animation et de la conception de produits. Cependant, l'édition détaillée et la personnalisation des assets 3D restent un défi de longue date. Plus précisément, les méthodes de génération 3D manquent de la capacité à suivre des instructions minutieuses avec la même précision que leurs homologues en création d'images 2D. Imaginez obtenir un jouet via la 3D AIGC, mais avec des accessoires et des vêtements non désirés. Pour relever ce défi, nous proposons une nouvelle pipeline appelée Tailor3D, qui crée rapidement des assets 3D personnalisés à partir d'images modifiables des deux côtés. Notre objectif est d'imiter la capacité d'un tailleur à modifier localement des objets ou à effectuer un transfert de style global. Contrairement à la création d'assets 3D à partir de multiples vues, l'utilisation d'images des deux côtés élimine les conflits dans les zones de chevauchement qui surviennent lors de l'édition de vues individuelles. Plus précisément, le processus commence par l'édition de la vue de face, puis génère la vue arrière de l'objet via une diffusion multi-vues. Ensuite, il procède à l'édition des vues arrière. Enfin, un modèle LRM double-face est proposé pour assembler de manière fluide les caractéristiques 3D de la face avant et de la face arrière, à la manière d'un tailleur qui assemble les parties avant et arrière d'un vêtement. Le LRM double-face corrige les imperfections de cohérence entre les vues avant et arrière, améliorant les capacités d'édition et réduisant les charges de mémoire, tout en les intégrant de manière fluide dans une représentation 3D unifiée grâce au LoRA Triplane Transformer. Les résultats expérimentaux démontrent l'efficacité de Tailor3D dans diverses tâches de génération et d'édition 3D, y compris le remplissage génératif 3D et le transfert de style. Il offre une solution conviviale et efficace pour l'édition d'assets 3D, chaque étape d'édition ne prenant que quelques secondes à s'exécuter.
English
Recent advances in 3D AIGC have shown promise in directly creating 3D objects from text and images, offering significant cost savings in animation and product design. However, detailed edit and customization of 3D assets remains a long-standing challenge. Specifically, 3D Generation methods lack the ability to follow finely detailed instructions as precisely as their 2D image creation counterparts. Imagine you can get a toy through 3D AIGC but with undesired accessories and dressing. To tackle this challenge, we propose a novel pipeline called Tailor3D, which swiftly creates customized 3D assets from editable dual-side images. We aim to emulate a tailor's ability to locally change objects or perform overall style transfer. Unlike creating 3D assets from multiple views, using dual-side images eliminates conflicts on overlapping areas that occur when editing individual views. Specifically, it begins by editing the front view, then generates the back view of the object through multi-view diffusion. Afterward, it proceeds to edit the back views. Finally, a Dual-sided LRM is proposed to seamlessly stitch together the front and back 3D features, akin to a tailor sewing together the front and back of a garment. The Dual-sided LRM rectifies imperfect consistencies between the front and back views, enhancing editing capabilities and reducing memory burdens while seamlessly integrating them into a unified 3D representation with the LoRA Triplane Transformer. Experimental results demonstrate Tailor3D's effectiveness across various 3D generation and editing tasks, including 3D generative fill and style transfer. It provides a user-friendly, efficient solution for editing 3D assets, with each editing step taking only seconds to complete.

Summary

AI-Generated Summary

PDF141November 28, 2024