LATTICE: Democratisering van hoogwaardige 3D-generatie op grote schaal
LATTICE: Democratize High-Fidelity 3D Generation at Scale
November 24, 2025
Auteurs: Zeqiang Lai, Yunfei Zhao, Zibo Zhao, Haolin Liu, Qingxiang Lin, Jingwei Huang, Chunchao Guo, Xiangyu Yue
cs.AI
Samenvatting
Wij presenteren LATTICE, een nieuw raamwerk voor de generatie van 3D-assets met hoge nauwkeurigheid, dat de kloof in kwaliteit en schaalbaarheid tussen 3D- en 2D-generatieve modellen overbrugt. Terwijl 2D-beeldsynthese profiteert van vaste ruimtelijke rasters en goed ingeburgerde transformer-architecturen, blijft 3D-generatie fundamenteel uitdagender vanwege de noodzaak om zowel de ruimtelijke structuur als gedetailleerde geometrische oppervlakken vanaf nul te voorspellen. Deze uitdagingen worden versterkt door de computationele complexiteit van bestaande 3D-representaties en het gebrek aan gestructureerde en schaalbare coderingsschema's voor 3D-assets. Om dit aan te pakken, stellen we VoxSet voor, een semi-gestructureerde representatie die 3D-assets comprimeert tot een compacte set latente vectoren verankerd aan een grof voxelraster, wat efficiënte en positiebewuste generatie mogelijk maakt. VoxSet behoudt de eenvoud en compressievoordelen van eerdere VecSet-methoden, terwijl het expliciete structuur introduceert in de latente ruimte, waardoor positionele embeddings de generatie kunnen sturen en sterke schaling op tokenniveau tijdens testtijd mogelijk wordt. Gebouwd op deze representatie hanteert LATTICE een pijplijn met twee fasen: eerst wordt een anker voor de gesparseerde, gevoxeliseerde geometrie gegenereerd, waarna gedetailleerde geometrie wordt geproduceerd met een getransformeerde 'rectified flow'. Onze methode is in de kern eenvoudig, maar ondersteunt decodering op willekeurige resolutie, training tegen lage kosten en flexibele inferentieschema's, behaalt state-of-the-art prestaties op diverse aspecten, en zet een significante stap richting schaalbare, hoogwaardige 3D-assetcreatie.
English
We present LATTICE, a new framework for high-fidelity 3D asset generation that bridges the quality and scalability gap between 3D and 2D generative models. While 2D image synthesis benefits from fixed spatial grids and well-established transformer architectures, 3D generation remains fundamentally more challenging due to the need to predict both spatial structure and detailed geometric surfaces from scratch. These challenges are exacerbated by the computational complexity of existing 3D representations and the lack of structured and scalable 3D asset encoding schemes. To address this, we propose VoxSet, a semi-structured representation that compresses 3D assets into a compact set of latent vectors anchored to a coarse voxel grid, enabling efficient and position-aware generation. VoxSet retains the simplicity and compression advantages of prior VecSet methods while introducing explicit structure into the latent space, allowing positional embeddings to guide generation and enabling strong token-level test-time scaling. Built upon this representation, LATTICE adopts a two-stage pipeline: first generating a sparse voxelized geometry anchor, then producing detailed geometry using a rectified flow transformer. Our method is simple at its core, but supports arbitrary resolution decoding, low-cost training, and flexible inference schemes, achieving state-of-the-art performance on various aspects, and offering a significant step toward scalable, high-quality 3D asset creation.