Tailor3D: Edición y Generación Personalizada de Activos 3D con Imágenes de Doble Cara
Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images
July 8, 2024
Autores: Zhangyang Qi, Yunhan Yang, Mengchen Zhang, Long Xing, Xiaoyang Wu, Tong Wu, Dahua Lin, Xihui Liu, Jiaqi Wang, Hengshuang Zhao
cs.AI
Resumen
Los avances recientes en AIGC 3D han demostrado promesa en la creación directa de objetos 3D a partir de texto e imágenes, ofreciendo ahorros significativos en costos en animación y diseño de productos. Sin embargo, la edición detallada y personalización de activos 3D sigue siendo un desafío de larga data. Específicamente, los métodos de Generación 3D carecen de la capacidad de seguir instrucciones detalladas de manera tan precisa como sus contrapartes de creación de imágenes 2D. Imagina que puedes obtener un juguete a través de AIGC 3D pero con accesorios y vestimenta no deseados. Para abordar este desafío, proponemos un nuevo proceso llamado Tailor3D, que crea rápidamente activos 3D personalizados a partir de imágenes editables de doble cara. Nuestro objetivo es emular la capacidad de un sastre para cambiar localmente objetos o realizar transferencia de estilo general. A diferencia de la creación de activos 3D a partir de múltiples vistas, el uso de imágenes de doble cara elimina conflictos en áreas superpuestas que ocurren al editar vistas individuales. Específicamente, comienza editando la vista frontal, luego genera la vista trasera del objeto a través de difusión de múltiples vistas. Posteriormente, procede a editar las vistas traseras. Finalmente, se propone un LRM de doble cara para unir sin problemas las características 3D frontales y traseras, similar a un sastre que cose juntas la parte delantera y trasera de una prenda. El LRM de doble cara corrige inconsistencias imperfectas entre las vistas frontal y trasera, mejorando las capacidades de edición y reduciendo las cargas de memoria mientras las integra sin problemas en una representación 3D unificada con el Transformador Triplano LoRA. Los resultados experimentales demuestran la efectividad de Tailor3D en diversas tareas de generación y edición 3D, incluyendo relleno generativo 3D y transferencia de estilo. Proporciona una solución amigable y eficiente para la edición de activos 3D, con cada paso de edición que solo tarda segundos en completarse.
English
Recent advances in 3D AIGC have shown promise in directly creating 3D objects
from text and images, offering significant cost savings in animation and
product design. However, detailed edit and customization of 3D assets remains a
long-standing challenge. Specifically, 3D Generation methods lack the ability
to follow finely detailed instructions as precisely as their 2D image creation
counterparts. Imagine you can get a toy through 3D AIGC but with undesired
accessories and dressing. To tackle this challenge, we propose a novel pipeline
called Tailor3D, which swiftly creates customized 3D assets from editable
dual-side images. We aim to emulate a tailor's ability to locally change
objects or perform overall style transfer. Unlike creating 3D assets from
multiple views, using dual-side images eliminates conflicts on overlapping
areas that occur when editing individual views. Specifically, it begins by
editing the front view, then generates the back view of the object through
multi-view diffusion. Afterward, it proceeds to edit the back views. Finally, a
Dual-sided LRM is proposed to seamlessly stitch together the front and back 3D
features, akin to a tailor sewing together the front and back of a garment. The
Dual-sided LRM rectifies imperfect consistencies between the front and back
views, enhancing editing capabilities and reducing memory burdens while
seamlessly integrating them into a unified 3D representation with the LoRA
Triplane Transformer. Experimental results demonstrate Tailor3D's effectiveness
across various 3D generation and editing tasks, including 3D generative fill
and style transfer. It provides a user-friendly, efficient solution for editing
3D assets, with each editing step taking only seconds to complete.Summary
AI-Generated Summary