MeshWeaver: tecelagem de superfície guiada por voxel esparso para geração autoregressiva de malhas
MeshWeaver: Sparse-Voxel-Guided Surface Weaving for Autoregressive Mesh Generation
June 3, 2026
Autores: Jiale Xu, Wang Zhao, Ying Shan
cs.AI
Resumo
A geração autoregressiva de malhas tem atraído atenção ao tokenizar malhas em sequências e treinar modelos no estilo de modelagem de linguagem. No entanto, as abordagens existentes sofrem de duas limitações fundamentais: (i) baixa eficiência de tokenização, que gera longas sequências de tokens e impede a expansão para malhas de alta poligonal, e (ii) ausência de orientação ciente da geometria, pois a geração é condicionada apenas a *embeddings* globais de forma, em vez de pistas locais de superfície. Apresentamos o MeshWeaver, uma estrutura autoregressiva que trata a geração de malhas como um processo de tecelagem de superfície, prevendo diretamente o próximo vértice em vez de coordenadas independentes. Em seu núcleo está um codificador de voxels esparsos em vários níveis que injeta contexto geométrico no processo generativo de três maneiras complementares: fornecendo características de voxels como representações de vértices, orientando a previsão de tokens por meio de atenção cruzada às características de voxels, e servindo como um andaime estrutural que restringe a geração em torno da superfície de entrada. Nosso *design* hierárquico permite a previsão de vértices de grosso a fino em uma única etapa de decodificação, enquanto acopla firmemente o modelo generativo com a geometria 3D. Extensos experimentos demonstram que o MeshWeaver alcança uma taxa de compressão de última geração de 18%, pode gerar malhas com até 16 mil faces e melhora significativamente a fidelidade geométrica em relação às abordagens anteriores.
English
Autoregressive mesh generation has gained attention by tokenizing meshes into sequences and training models in a language-modeling fashion. However, existing approaches suffer from two fundamental limitations: (i) low tokenization efficiency, which yields long token sequences and prevents scaling to high-poly meshes, and (ii) absence of geometry-aware guidance, as generation is conditioned only on global shape embeddings rather than local surface cues. We introduce MeshWeaver, an autoregressive framework that treats mesh generation as a surface weaving process by directly predicting the next vertex instead of independent coordinates. At its core is a multi-level sparse-voxel encoder that injects geometric context into the generative process in three complementary ways: providing voxel features as vertex representations, guiding token prediction via cross-attention to voxel features, and serving as a structural scaffold that constrains generation around the input surface. Our hierarchical design enables coarse-to-fine vertex prediction in a single decoding step, while tightly coupling the generative model with 3D geometry. Extensive experiments demonstrate that MeshWeaver achieves a state-of-the-art compression ratio of 18%, can generate meshes with up to 16K faces, and significantly improves geometric fidelity over prior approaches.