ChatPaper.aiChatPaper

LATTICE: Democratizzare la generazione 3D ad alta fedeltà su larga scala

LATTICE: Democratize High-Fidelity 3D Generation at Scale

November 24, 2025
Autori: Zeqiang Lai, Yunfei Zhao, Zibo Zhao, Haolin Liu, Qingxiang Lin, Jingwei Huang, Chunchao Guo, Xiangyu Yue
cs.AI

Abstract

Presentiamo LATTICE, un nuovo framework per la generazione di asset 3D ad alta fedeltà che colma il divario qualitativo e di scalabilità tra i modelli generativi 3D e 2D. Sebbene la sintesi di immagini 2D tragga vantaggio da griglie spaziali fisse e architetture transformer consolidate, la generazione 3D rimane fondamentalmente più complessa a causa della necessità di prevedere sia la struttura spaziale che le superfici geometriche dettagliate da zero. Queste sfide sono esacerbate dalla complessità computazionale delle rappresentazioni 3D esistenti e dalla mancanza di schemi di codifica degli asset 3D strutturati e scalabili. Per affrontare questo problema, proponiamo VoxSet, una rappresentazione semi-strutturata che comprime gli asset 3D in un insieme compatto di vettori latenti ancorati a una griglia voxel grossolana, abilitando una generazione efficiente e consapevole della posizione. VoxSet conserva la semplicità e i vantaggi di compressione dei precedenti metodi VecSet, introducendo al contempo una struttura esplicita nello spazio latente, permettendo agli embedding posizionali di guidare la generazione e abilitando un forte scaling a livello di token durante il test. Basandosi su questa rappresentazione, LATTICE adotta una pipeline a due stadi: prima genera un'ancora geometrica voxelizzata sparsa, poi produce la geometria dettagliata utilizzando un transformer a flusso rettificato. Il nostro metodo è semplice nel suo nucleo, ma supporta la decodifica a risoluzione arbitraria, un addestramento a basso costo e schemi di inferenza flessibili, raggiungendo prestazioni all'avanguardia in vari aspetti e offrendo un passo significativo verso la creazione di asset 3D scalabili e di alta qualità.
English
We present LATTICE, a new framework for high-fidelity 3D asset generation that bridges the quality and scalability gap between 3D and 2D generative models. While 2D image synthesis benefits from fixed spatial grids and well-established transformer architectures, 3D generation remains fundamentally more challenging due to the need to predict both spatial structure and detailed geometric surfaces from scratch. These challenges are exacerbated by the computational complexity of existing 3D representations and the lack of structured and scalable 3D asset encoding schemes. To address this, we propose VoxSet, a semi-structured representation that compresses 3D assets into a compact set of latent vectors anchored to a coarse voxel grid, enabling efficient and position-aware generation. VoxSet retains the simplicity and compression advantages of prior VecSet methods while introducing explicit structure into the latent space, allowing positional embeddings to guide generation and enabling strong token-level test-time scaling. Built upon this representation, LATTICE adopts a two-stage pipeline: first generating a sparse voxelized geometry anchor, then producing detailed geometry using a rectified flow transformer. Our method is simple at its core, but supports arbitrary resolution decoding, low-cost training, and flexible inference schemes, achieving state-of-the-art performance on various aspects, and offering a significant step toward scalable, high-quality 3D asset creation.
PDF102December 21, 2025