StdGEN: Geração de Personagens 3D Semântica-Decomposta a partir de Imagens Únicas

Resumo

Apresentamos o StdGEN, um pipeline inovador para gerar personagens 3D de alta qualidade semanticamente decompostos a partir de imagens únicas, possibilitando amplas aplicações em realidade virtual, jogos e produção cinematográfica, entre outros. Ao contrário de métodos anteriores que enfrentam dificuldades com decomponibilidade limitada, qualidade insatisfatória e longos tempos de otimização, o StdGEN apresenta decomponibilidade, eficácia e eficiência; ou seja, gera personagens 3D detalhados de forma intrincada com componentes semânticos separados, como o corpo, roupas e cabelo, em três minutos. No cerne do StdGEN está nosso Modelo de Reconstrução Grande Consciente de Semântica (S-LRM) proposto, um modelo generalizável baseado em transformadores que reconstrói conjuntamente geometria, cor e semântica a partir de imagens de múltiplas vistas de forma direta. Um esquema diferenciável de extração de superfície semântica em múltiplas camadas é introduzido para obter malhas a partir de campos implícitos híbridos reconstruídos pelo nosso S-LRM. Adicionalmente, um modelo de difusão eficiente em múltiplas vistas e um módulo iterativo de refinamento de superfície em múltiplas camadas são integrados ao pipeline para facilitar a geração de personagens 3D decomponíveis de alta qualidade. Experimentos extensivos demonstram nosso desempenho de ponta na geração de personagens de anime 3D, superando significativamente as bases existentes em geometria, textura e decomponibilidade. O StdGEN oferece personagens 3D semanticamente decompostos prontos para uso e possibilita personalização flexível para uma ampla gama de aplicações. Página do projeto: https://stdgen.github.io

English

We present StdGEN, an innovative pipeline for generating semantically decomposed high-quality 3D characters from single images, enabling broad applications in virtual reality, gaming, and filmmaking, etc. Unlike previous methods which struggle with limited decomposability, unsatisfactory quality, and long optimization times, StdGEN features decomposability, effectiveness and efficiency; i.e., it generates intricately detailed 3D characters with separated semantic components such as the body, clothes, and hair, in three minutes. At the core of StdGEN is our proposed Semantic-aware Large Reconstruction Model (S-LRM), a transformer-based generalizable model that jointly reconstructs geometry, color and semantics from multi-view images in a feed-forward manner. A differentiable multi-layer semantic surface extraction scheme is introduced to acquire meshes from hybrid implicit fields reconstructed by our S-LRM. Additionally, a specialized efficient multi-view diffusion model and an iterative multi-layer surface refinement module are integrated into the pipeline to facilitate high-quality, decomposable 3D character generation. Extensive experiments demonstrate our state-of-the-art performance in 3D anime character generation, surpassing existing baselines by a significant margin in geometry, texture and decomposability. StdGEN offers ready-to-use semantic-decomposed 3D characters and enables flexible customization for a wide range of applications. Project page: https://stdgen.github.io

StdGEN: Geração de Personagens 3D Semântica-Decomposta a partir de Imagens Únicas

StdGEN: Semantic-Decomposed 3D Character Generation from Single Images

Resumo

Support