TreeMeshGPT: Generazione Artistica di Mesh con Sequenziamento Autoregressivo ad Albero
TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing
March 14, 2025
Autori: Stefan Lionar, Jiabin Liang, Gim Hee Lee
cs.AI
Abstract
Introduciamo TreeMeshGPT, un Transformer autoregressivo progettato per generare mesh artistiche di alta qualità allineate con nuvole di punti in input. Invece della tradizionale previsione del token successivo nei Transformer autoregressivi, proponiamo una nuova Sequenza Albero Autoregressiva in cui il token di input successivo viene recuperato da una struttura ad albero in crescita dinamica costruita sull'adiacenza triangolare delle facce all'interno della mesh. La nostra sequenza consente alla mesh di estendersi localmente dall'ultima faccia triangolare generata ad ogni passo, riducendo così la difficoltà di addestramento e migliorando la qualità della mesh. Il nostro approccio rappresenta ogni faccia triangolare con due token, ottenendo un tasso di compressione di circa il 22% rispetto alla tokenizzazione semplice delle facce. Questa tokenizzazione efficiente permette al nostro modello di generare mesh artistiche altamente dettagliate con un forte condizionamento della nuvola di punti, superando i metodi precedenti sia in capacità che in fedeltà. Inoltre, il nostro metodo genera mesh con forti vincoli di orientamento delle normali, minimizzando le normali invertite comunemente riscontrate nei metodi precedenti. I nostri esperimenti dimostrano che TreeMeshGPT migliora la qualità della generazione delle mesh con dettagli raffinati e coerenza nell'orientamento delle normali.
English
We introduce TreeMeshGPT, an autoregressive Transformer designed to generate
high-quality artistic meshes aligned with input point clouds. Instead of the
conventional next-token prediction in autoregressive Transformer, we propose a
novel Autoregressive Tree Sequencing where the next input token is retrieved
from a dynamically growing tree structure that is built upon the triangle
adjacency of faces within the mesh. Our sequencing enables the mesh to extend
locally from the last generated triangular face at each step, and therefore
reduces training difficulty and improves mesh quality. Our approach represents
each triangular face with two tokens, achieving a compression rate of
approximately 22% compared to the naive face tokenization. This efficient
tokenization enables our model to generate highly detailed artistic meshes with
strong point cloud conditioning, surpassing previous methods in both capacity
and fidelity. Furthermore, our method generates mesh with strong normal
orientation constraints, minimizing flipped normals commonly encountered in
previous methods. Our experiments show that TreeMeshGPT enhances the mesh
generation quality with refined details and normal orientation consistency.