LoST: Nível de Tokenização Semântica para Formas 3D

Resumo

A tokenização é uma técnica fundamental na modelagem generativa de várias modalidades. Em particular, desempenha um papel crítico em modelos autorregressivos (AR), que surgiram recentemente como uma opção atraente para geração 3D. No entanto, a tokenização ideal de formas 3D permanece uma questão em aberto. Os métodos state-of-the-art (SOTA) dependem principalmente de hierarquias geométricas de nível de detalhe (LoD), originalmente concebidas para renderização e compressão. Essas hierarquias espaciais são frequentemente ineficientes em tokens e carecem de coerência semântica para modelagem AR. Propomos a Tokenização por Nível de Semântica (LoST), que ordena os tokens por saliência semântica, de modo que prefixos iniciais decodifiquem em formas completas e plausíveis que possuem semântica principal, enquanto tokens subsequentes refinam detalhes geométricos e semânticos específicos da instância. Para treinar o LoST, introduzimos o Alinhamento por Distância Inter-Relacional (RIDA), uma nova função de perda de alinhamento semântico 3D que alinha a estrutura relacional do espaço latente da forma 3D com a do espaço de características semânticas DINO. Experimentos mostram que o LoST alcança reconstrução SOTA, superando tokenizadores de formas 3D baseados em LoD anteriores por grandes margens em métricas de reconstrução geométrica e semântica. Além disso, o LoST alcança geração AR 3D eficiente e de alta qualidade e permite tarefas subsequentes como recuperação semântica, utilizando apenas 0,1% a 10% dos tokens necessários para modelos AR anteriores.

English

Tokenization is a fundamental technique in the generative modeling of various modalities. In particular, it plays a critical role in autoregressive (AR) models, which have recently emerged as a compelling option for 3D generation. However, optimal tokenization of 3D shapes remains an open question. State-of-the-art (SOTA) methods primarily rely on geometric level-of-detail (LoD) hierarchies, originally designed for rendering and compression. These spatial hierarchies are often token-inefficient and lack semantic coherence for AR modeling. We propose Level-of-Semantics Tokenization (LoST), which orders tokens by semantic salience, such that early prefixes decode into complete, plausible shapes that possess principal semantics, while subsequent tokens refine instance-specific geometric and semantic details. To train LoST, we introduce Relational Inter-Distance Alignment (RIDA), a novel 3D semantic alignment loss that aligns the relational structure of the 3D shape latent space with that of the semantic DINO feature space. Experiments show that LoST achieves SOTA reconstruction, surpassing previous LoD-based 3D shape tokenizers by large margins on both geometric and semantic reconstruction metrics. Moreover, LoST achieves efficient, high-quality AR 3D generation and enables downstream tasks like semantic retrieval, while using only 0.1%-10% of the tokens needed by prior AR models.

LoST: Nível de Tokenização Semântica para Formas 3D

LoST: Level of Semantics Tokenization for 3D Shapes

Resumo

Support