MeshWeaver: Sparse-Voxel-Geleid Oppervlakteweven voor Autoregressieve Meshgeneratie

Samenvatting

Autoregressieve mesh-generatie heeft aandacht gekregen door meshes te tokeniseren in sequenties en modellen te trainen op een taalmodelleringsmanier. Echter, bestaande benaderingen hebben te maken met twee fundamentele beperkingen: (i) lage tokenisatie-efficiëntie, wat leidt tot lange tokensequenties en het opschalen naar meshes met veel polygonen belemmert, en (ii) afwezigheid van geometrie-bewuste begeleiding, aangezien generatie alleen wordt geconditioneerd op globale vormembeddings in plaats van lokale oppervlakte-aanwijzingen. We introduceren MeshWeaver, een autoregressief raamwerk dat mesh-generatie beschouwt als een oppervlakteweefproces door direct het volgende hoekpunt te voorspellen in plaats van onafhankelijke coördinaten. De kern ervan is een multi-level sparse-voxel encoder die geometrische context in het generatieve proces injecteert op drie complementaire manieren: het leveren van voxelfeatures als hoekpuntrepresentaties, het begeleiden van tokenpredictie via cross-attention naar voxelfeatures, en het dienen als een structureel scaffold dat generatie rond het ingevoerde oppervlak beperkt. Ons hiërarchische ontwerp maakt grof-naar-fijn hoekpuntpredictie mogelijk in een enkele decodeerstap, terwijl het generatieve model nauw wordt gekoppeld aan 3D-geometrie. Uitgebreide experimenten tonen aan dat MeshWeaver een state-of-the-art compressieverhouding van 18% bereikt, meshes kan genereren met maximaal 16K vlakken, en de geometrische getrouwheid aanzienlijk verbetert ten opzichte van eerdere benaderingen.

English

Autoregressive mesh generation has gained attention by tokenizing meshes into sequences and training models in a language-modeling fashion. However, existing approaches suffer from two fundamental limitations: (i) low tokenization efficiency, which yields long token sequences and prevents scaling to high-poly meshes, and (ii) absence of geometry-aware guidance, as generation is conditioned only on global shape embeddings rather than local surface cues. We introduce MeshWeaver, an autoregressive framework that treats mesh generation as a surface weaving process by directly predicting the next vertex instead of independent coordinates. At its core is a multi-level sparse-voxel encoder that injects geometric context into the generative process in three complementary ways: providing voxel features as vertex representations, guiding token prediction via cross-attention to voxel features, and serving as a structural scaffold that constrains generation around the input surface. Our hierarchical design enables coarse-to-fine vertex prediction in a single decoding step, while tightly coupling the generative model with 3D geometry. Extensive experiments demonstrate that MeshWeaver achieves a state-of-the-art compression ratio of 18%, can generate meshes with up to 16K faces, and significantly improves geometric fidelity over prior approaches.