LATTICE: Demokratisierung hochwertiger 3D-Generierung in großem Maßstab
LATTICE: Democratize High-Fidelity 3D Generation at Scale
November 24, 2025
papers.authors: Zeqiang Lai, Yunfei Zhao, Zibo Zhao, Haolin Liu, Qingxiang Lin, Jingwei Huang, Chunchao Guo, Xiangyu Yue
cs.AI
papers.abstract
Wir stellen LATTICE vor, ein neues Framework zur Erzeugung hochwertiger 3D-Assets, das die Lücke zwischen der Qualität und Skalierbarkeit von 3D- und 2D-Generativmodellen schließt. Während die 2D-Bildsynthese von festen räumlichen Gittern und etablierten Transformer-Architekturen profitiert, bleibt die 3D-Generierung aufgrund der Notwendigkeit, sowohl die räumliche Struktur als auch detaillierte geometrische Oberflächen von Grund auf vorherzusagen, grundsätzlich herausfordernder. Diese Herausforderungen werden durch die rechnerische Komplexität bestehender 3D-Repräsentationen und das Fehlen strukturierter und skalierbarer Kodierungsschemata für 3D-Assets noch verstärkt. Um dies zu adressieren, schlagen wir VoxSet vor, eine semistrukturierte Repräsentation, die 3D-Assets in einen kompakten Satz latenter Vektoren komprimiert, die an ein grobes Voxelgitter angeknüpft sind und eine effiziente und positionsbewusste Generierung ermöglicht. VoxSet behält die Einfachheit und Kompressionsvorteile früherer VecSet-Methoden bei, führt aber gleichzeitig explizite Struktur in den latenten Raum ein, was Positions-Einbettungen erlaubt, die Generierung zu steuern, und starke Token-basierte Skalierung zur Testzeit ermöglicht. Auf dieser Repräsentation aufbauend nutzt LATTICE eine Zwei-Stufen-Pipeline: Zuerst wird ein sparsamer, voxelisierter Geometrie-Anker generiert, dann wird die detaillierte Geometrie unter Verwendung eines Rectified-Flow-Transformers erzeugt. Unsere Methode ist im Kern einfach, unterstützt aber Decodierung in beliebiger Auflösung, kostengünstiges Training und flexible Inferenz-Schemata, erzielt state-of-the-art Leistung in verschiedenen Aspekten und bietet einen bedeutenden Schritt in Richtung skalierbarer, hochwertiger 3D-Asset-Erstellung.
English
We present LATTICE, a new framework for high-fidelity 3D asset generation that bridges the quality and scalability gap between 3D and 2D generative models. While 2D image synthesis benefits from fixed spatial grids and well-established transformer architectures, 3D generation remains fundamentally more challenging due to the need to predict both spatial structure and detailed geometric surfaces from scratch. These challenges are exacerbated by the computational complexity of existing 3D representations and the lack of structured and scalable 3D asset encoding schemes. To address this, we propose VoxSet, a semi-structured representation that compresses 3D assets into a compact set of latent vectors anchored to a coarse voxel grid, enabling efficient and position-aware generation. VoxSet retains the simplicity and compression advantages of prior VecSet methods while introducing explicit structure into the latent space, allowing positional embeddings to guide generation and enabling strong token-level test-time scaling. Built upon this representation, LATTICE adopts a two-stage pipeline: first generating a sparse voxelized geometry anchor, then producing detailed geometry using a rectified flow transformer. Our method is simple at its core, but supports arbitrary resolution decoding, low-cost training, and flexible inference schemes, achieving state-of-the-art performance on various aspects, and offering a significant step toward scalable, high-quality 3D asset creation.