Tailor3D: Edição e Geração Personalizada de Ativos 3D com Imagens de Dupla Face

Resumo

Os avanços recentes em AIGC 3D têm mostrado promessa na criação direta de objetos 3D a partir de texto e imagens, oferecendo economias significativas em animação e design de produtos. No entanto, a edição detalhada e personalização de ativos 3D permanecem um desafio de longa data. Especificamente, os métodos de Geração 3D carecem da capacidade de seguir instruções detalhadas de forma tão precisa quanto seus equivalentes de criação de imagens 2D. Imagine poder obter um brinquedo por meio de AIGC 3D, mas com acessórios e roupas indesejados. Para enfrentar esse desafio, propomos um novo pipeline chamado Tailor3D, que cria rapidamente ativos 3D personalizados a partir de imagens editáveis de ambos os lados. Nosso objetivo é emular a capacidade de um alfaiate de alterar localmente objetos ou realizar transferência de estilo geral. Ao contrário da criação de ativos 3D a partir de múltiplas vistas, o uso de imagens de ambos os lados elimina conflitos em áreas sobrepostas que ocorrem ao editar vistas individuais. Especificamente, começa editando a vista frontal e, em seguida, gera a vista traseira do objeto por meio de difusão de várias vistas. Em seguida, procede para editar as vistas traseiras. Por fim, propomos um LRM de ambos os lados para unir perfeitamente as características 3D da frente e de trás, semelhante a um alfaiate costurando a frente e as costas de uma peça de vestuário. O LRM de ambos os lados corrige inconsistências imperfeitas entre as vistas da frente e de trás, aprimorando as capacidades de edição e reduzindo as cargas de memória enquanto as integra perfeitamente em uma representação 3D unificada com o Transformador Triplanar LoRA. Resultados experimentais demonstram a eficácia do Tailor3D em várias tarefas de geração e edição 3D, incluindo preenchimento generativo 3D e transferência de estilo. Ele fornece uma solução amigável e eficiente para a edição de ativos 3D, com cada etapa de edição levando apenas segundos para ser concluída.

English

Recent advances in 3D AIGC have shown promise in directly creating 3D objects from text and images, offering significant cost savings in animation and product design. However, detailed edit and customization of 3D assets remains a long-standing challenge. Specifically, 3D Generation methods lack the ability to follow finely detailed instructions as precisely as their 2D image creation counterparts. Imagine you can get a toy through 3D AIGC but with undesired accessories and dressing. To tackle this challenge, we propose a novel pipeline called Tailor3D, which swiftly creates customized 3D assets from editable dual-side images. We aim to emulate a tailor's ability to locally change objects or perform overall style transfer. Unlike creating 3D assets from multiple views, using dual-side images eliminates conflicts on overlapping areas that occur when editing individual views. Specifically, it begins by editing the front view, then generates the back view of the object through multi-view diffusion. Afterward, it proceeds to edit the back views. Finally, a Dual-sided LRM is proposed to seamlessly stitch together the front and back 3D features, akin to a tailor sewing together the front and back of a garment. The Dual-sided LRM rectifies imperfect consistencies between the front and back views, enhancing editing capabilities and reducing memory burdens while seamlessly integrating them into a unified 3D representation with the LoRA Triplane Transformer. Experimental results demonstrate Tailor3D's effectiveness across various 3D generation and editing tasks, including 3D generative fill and style transfer. It provides a user-friendly, efficient solution for editing 3D assets, with each editing step taking only seconds to complete.

Tailor3D: Edição e Geração Personalizada de Ativos 3D com Imagens de Dupla Face

Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images

Resumo

Support