StdGEN: Geração de Personagens 3D Semântica-Decomposta a partir de Imagens Únicas
StdGEN: Semantic-Decomposed 3D Character Generation from Single Images
November 8, 2024
Autores: Yuze He, Yanning Zhou, Wang Zhao, Zhongkai Wu, Kaiwen Xiao, Wei Yang, Yong-Jin Liu, Xiao Han
cs.AI
Resumo
Apresentamos o StdGEN, um pipeline inovador para gerar personagens 3D de alta qualidade semanticamente decompostos a partir de imagens únicas, possibilitando amplas aplicações em realidade virtual, jogos e produção cinematográfica, entre outros. Ao contrário de métodos anteriores que enfrentam dificuldades com decomponibilidade limitada, qualidade insatisfatória e longos tempos de otimização, o StdGEN apresenta decomponibilidade, eficácia e eficiência; ou seja, gera personagens 3D detalhados de forma intrincada com componentes semânticos separados, como o corpo, roupas e cabelo, em três minutos. No cerne do StdGEN está nosso Modelo de Reconstrução Grande Consciente de Semântica (S-LRM) proposto, um modelo generalizável baseado em transformadores que reconstrói conjuntamente geometria, cor e semântica a partir de imagens de múltiplas vistas de forma direta. Um esquema diferenciável de extração de superfície semântica em múltiplas camadas é introduzido para obter malhas a partir de campos implícitos híbridos reconstruídos pelo nosso S-LRM. Adicionalmente, um modelo de difusão eficiente em múltiplas vistas e um módulo iterativo de refinamento de superfície em múltiplas camadas são integrados ao pipeline para facilitar a geração de personagens 3D decomponíveis de alta qualidade. Experimentos extensivos demonstram nosso desempenho de ponta na geração de personagens de anime 3D, superando significativamente as bases existentes em geometria, textura e decomponibilidade. O StdGEN oferece personagens 3D semanticamente decompostos prontos para uso e possibilita personalização flexível para uma ampla gama de aplicações. Página do projeto: https://stdgen.github.io
English
We present StdGEN, an innovative pipeline for generating semantically
decomposed high-quality 3D characters from single images, enabling broad
applications in virtual reality, gaming, and filmmaking, etc. Unlike previous
methods which struggle with limited decomposability, unsatisfactory quality,
and long optimization times, StdGEN features decomposability, effectiveness and
efficiency; i.e., it generates intricately detailed 3D characters with
separated semantic components such as the body, clothes, and hair, in three
minutes. At the core of StdGEN is our proposed Semantic-aware Large
Reconstruction Model (S-LRM), a transformer-based generalizable model that
jointly reconstructs geometry, color and semantics from multi-view images in a
feed-forward manner. A differentiable multi-layer semantic surface extraction
scheme is introduced to acquire meshes from hybrid implicit fields
reconstructed by our S-LRM. Additionally, a specialized efficient multi-view
diffusion model and an iterative multi-layer surface refinement module are
integrated into the pipeline to facilitate high-quality, decomposable 3D
character generation. Extensive experiments demonstrate our state-of-the-art
performance in 3D anime character generation, surpassing existing baselines by
a significant margin in geometry, texture and decomposability. StdGEN offers
ready-to-use semantic-decomposed 3D characters and enables flexible
customization for a wide range of applications. Project page:
https://stdgen.github.io