ChatPaper.aiChatPaper

LATTICE : Démocratiser la génération 3D haute fidélité à grande échelle

LATTICE: Democratize High-Fidelity 3D Generation at Scale

November 24, 2025
papers.authors: Zeqiang Lai, Yunfei Zhao, Zibo Zhao, Haolin Liu, Qingxiang Lin, Jingwei Huang, Chunchao Guo, Xiangyu Yue
cs.AI

papers.abstract

Nous présentons LATTICE, un nouveau cadre pour la génération d'actifs 3D haute fidélité qui comble l'écart de qualité et d'évolutivité entre les modèles génératifs 2D et 3D. Alors que la synthèse d'images 2D bénéficie de grilles spatiales fixes et d'architectures de transformateurs bien établies, la génération 3D reste fondamentalement plus complexe en raison de la nécessité de prédire à la fois la structure spatiale et les surfaces géométriques détaillées à partir de zéro. Ces défis sont exacerbés par la complexité computationnelle des représentations 3D existantes et le manque de schémas d'encodage d'actifs 3D structurés et évolutifs. Pour y remédier, nous proposons VoxSet, une représentation semi-structurée qui compresse les actifs 3D en un ensemble compact de vecteurs latents ancrés à une grille de voxels grossière, permettant une génération efficace et sensible à la position. VoxSet conserve la simplicité et les avantages de compression des méthodes VecSet antérieures tout en introduisant une structure explicite dans l'espace latent, permettant à des plongements positionnels de guider la génération et d'autoriser un redimensionnement solide au niveau des tokens lors des tests. Construit sur cette représentation, LATTICE adopte un pipeline en deux étapes : générer d'abord une ancre géométrique voxélisée sparse, puis produire une géométrie détaillée à l'aide d'un transformeur à flux rectifié. Notre méthode est simple dans son principe, mais prend en charge le décodage à résolution arbitraire, l'entraînement à faible coût et des schémas d'inférence flexibles, atteignant des performances de pointe sur divers aspects, et offrant une avancée significative vers la création d'actifs 3D évolutifs et de haute qualité.
English
We present LATTICE, a new framework for high-fidelity 3D asset generation that bridges the quality and scalability gap between 3D and 2D generative models. While 2D image synthesis benefits from fixed spatial grids and well-established transformer architectures, 3D generation remains fundamentally more challenging due to the need to predict both spatial structure and detailed geometric surfaces from scratch. These challenges are exacerbated by the computational complexity of existing 3D representations and the lack of structured and scalable 3D asset encoding schemes. To address this, we propose VoxSet, a semi-structured representation that compresses 3D assets into a compact set of latent vectors anchored to a coarse voxel grid, enabling efficient and position-aware generation. VoxSet retains the simplicity and compression advantages of prior VecSet methods while introducing explicit structure into the latent space, allowing positional embeddings to guide generation and enabling strong token-level test-time scaling. Built upon this representation, LATTICE adopts a two-stage pipeline: first generating a sparse voxelized geometry anchor, then producing detailed geometry using a rectified flow transformer. Our method is simple at its core, but supports arbitrary resolution decoding, low-cost training, and flexible inference schemes, achieving state-of-the-art performance on various aspects, and offering a significant step toward scalable, high-quality 3D asset creation.
PDF31December 6, 2025