Tailor3D: Edição e Geração Personalizada de Ativos 3D com Imagens de Dupla Face
Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images
July 8, 2024
Autores: Zhangyang Qi, Yunhan Yang, Mengchen Zhang, Long Xing, Xiaoyang Wu, Tong Wu, Dahua Lin, Xihui Liu, Jiaqi Wang, Hengshuang Zhao
cs.AI
Resumo
Os avanços recentes em AIGC 3D têm mostrado promessa na criação direta de objetos 3D a partir de texto e imagens, oferecendo economias significativas em animação e design de produtos. No entanto, a edição detalhada e personalização de ativos 3D permanecem um desafio de longa data. Especificamente, os métodos de Geração 3D carecem da capacidade de seguir instruções detalhadas de forma tão precisa quanto seus equivalentes de criação de imagens 2D. Imagine poder obter um brinquedo por meio de AIGC 3D, mas com acessórios e roupas indesejados. Para enfrentar esse desafio, propomos um novo pipeline chamado Tailor3D, que cria rapidamente ativos 3D personalizados a partir de imagens editáveis de ambos os lados. Nosso objetivo é emular a capacidade de um alfaiate de alterar localmente objetos ou realizar transferência de estilo geral. Ao contrário da criação de ativos 3D a partir de múltiplas vistas, o uso de imagens de ambos os lados elimina conflitos em áreas sobrepostas que ocorrem ao editar vistas individuais. Especificamente, começa editando a vista frontal e, em seguida, gera a vista traseira do objeto por meio de difusão de várias vistas. Em seguida, procede para editar as vistas traseiras. Por fim, propomos um LRM de ambos os lados para unir perfeitamente as características 3D da frente e de trás, semelhante a um alfaiate costurando a frente e as costas de uma peça de vestuário. O LRM de ambos os lados corrige inconsistências imperfeitas entre as vistas da frente e de trás, aprimorando as capacidades de edição e reduzindo as cargas de memória enquanto as integra perfeitamente em uma representação 3D unificada com o Transformador Triplanar LoRA. Resultados experimentais demonstram a eficácia do Tailor3D em várias tarefas de geração e edição 3D, incluindo preenchimento generativo 3D e transferência de estilo. Ele fornece uma solução amigável e eficiente para a edição de ativos 3D, com cada etapa de edição levando apenas segundos para ser concluída.
English
Recent advances in 3D AIGC have shown promise in directly creating 3D objects
from text and images, offering significant cost savings in animation and
product design. However, detailed edit and customization of 3D assets remains a
long-standing challenge. Specifically, 3D Generation methods lack the ability
to follow finely detailed instructions as precisely as their 2D image creation
counterparts. Imagine you can get a toy through 3D AIGC but with undesired
accessories and dressing. To tackle this challenge, we propose a novel pipeline
called Tailor3D, which swiftly creates customized 3D assets from editable
dual-side images. We aim to emulate a tailor's ability to locally change
objects or perform overall style transfer. Unlike creating 3D assets from
multiple views, using dual-side images eliminates conflicts on overlapping
areas that occur when editing individual views. Specifically, it begins by
editing the front view, then generates the back view of the object through
multi-view diffusion. Afterward, it proceeds to edit the back views. Finally, a
Dual-sided LRM is proposed to seamlessly stitch together the front and back 3D
features, akin to a tailor sewing together the front and back of a garment. The
Dual-sided LRM rectifies imperfect consistencies between the front and back
views, enhancing editing capabilities and reducing memory burdens while
seamlessly integrating them into a unified 3D representation with the LoRA
Triplane Transformer. Experimental results demonstrate Tailor3D's effectiveness
across various 3D generation and editing tasks, including 3D generative fill
and style transfer. It provides a user-friendly, efficient solution for editing
3D assets, with each editing step taking only seconds to complete.