MeshAnything: Geração de Malhas Criadas por Artistas com Transformers Autoregressivos
MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers
June 14, 2024
Autores: Yiwen Chen, Tong He, Di Huang, Weicai Ye, Sijin Chen, Jiaxiang Tang, Xin Chen, Zhongang Cai, Lei Yang, Gang Yu, Guosheng Lin, Chi Zhang
cs.AI
Resumo
Recentemente, ativos 3D criados por meio de reconstrução e geração atingiram a qualidade de ativos feitos manualmente, destacando seu potencial de substituição. No entanto, esse potencial permanece em grande parte não realizado porque esses ativos sempre precisam ser convertidos em malhas para aplicações na indústria 3D, e as malhas produzidas pelos métodos atuais de extração de malhas são significativamente inferiores às Malhas Criadas por Artistas (AMs), ou seja, malhas criadas por artistas humanos. Especificamente, os métodos atuais de extração de malhas dependem de faces densas e ignoram características geométricas, levando a ineficiências, pós-processamento complicado e menor qualidade de representação. Para resolver esses problemas, apresentamos o MeshAnything, um modelo que trata a extração de malhas como um problema de geração, produzindo AMs alinhadas com formas especificadas. Ao converter ativos 3D em qualquer representação 3D em AMs, o MeshAnything pode ser integrado a vários métodos de produção de ativos 3D, aprimorando assim sua aplicação em toda a indústria 3D. A arquitetura do MeshAnything compreende um VQ-VAE e um transformador decodificador condicionado por forma. Primeiro, aprendemos um vocabulário de malhas usando o VQ-VAE, depois treinamos o transformador decodificador condicionado por forma nesse vocabulário para a geração autoregressiva de malhas condicionadas por forma. Nossos extensos experimentos mostram que nosso método gera AMs com centenas de vezes menos faces, melhorando significativamente a eficiência de armazenamento, renderização e simulação, ao mesmo tempo em que alcança precisão comparável aos métodos anteriores.
English
Recently, 3D assets created via reconstruction and generation have matched
the quality of manually crafted assets, highlighting their potential for
replacement. However, this potential is largely unrealized because these assets
always need to be converted to meshes for 3D industry applications, and the
meshes produced by current mesh extraction methods are significantly inferior
to Artist-Created Meshes (AMs), i.e., meshes created by human artists.
Specifically, current mesh extraction methods rely on dense faces and ignore
geometric features, leading to inefficiencies, complicated post-processing, and
lower representation quality. To address these issues, we introduce
MeshAnything, a model that treats mesh extraction as a generation problem,
producing AMs aligned with specified shapes. By converting 3D assets in any 3D
representation into AMs, MeshAnything can be integrated with various 3D asset
production methods, thereby enhancing their application across the 3D industry.
The architecture of MeshAnything comprises a VQ-VAE and a shape-conditioned
decoder-only transformer. We first learn a mesh vocabulary using the VQ-VAE,
then train the shape-conditioned decoder-only transformer on this vocabulary
for shape-conditioned autoregressive mesh generation. Our extensive experiments
show that our method generates AMs with hundreds of times fewer faces,
significantly improving storage, rendering, and simulation efficiencies, while
achieving precision comparable to previous methods.