ChatPaper.aiChatPaper

LATTICE: Democratización de la Generación 3D de Alta Fidelidad a Escala

LATTICE: Democratize High-Fidelity 3D Generation at Scale

November 24, 2025
Autores: Zeqiang Lai, Yunfei Zhao, Zibo Zhao, Haolin Liu, Qingxiang Lin, Jingwei Huang, Chunchao Guo, Xiangyu Yue
cs.AI

Resumen

Presentamos LATTICE, un nuevo marco para la generación de activos 3D de alta fidelidad que salva la brecha de calidad y escalabilidad entre los modelos generativos 3D y 2D. Mientras que la síntesis de imágenes 2D se beneficia de mallas espaciales fijas y arquitecturas de transformadores bien establecidas, la generación 3D sigue siendo fundamentalmente más compleja debido a la necesidad de predecir tanto la estructura espacial como las superficies geométricas detalladas desde cero. Estos desafíos se ven exacerbados por la complejidad computacional de las representaciones 3D existentes y la falta de esquemas de codificación de activos 3D estructurados y escalables. Para abordar esto, proponemos VoxSet, una representación semi-estructurada que comprime los activos 3D en un conjunto compacto de vectores latentes anclados a una malla de vóxeles gruesa, permitiendo una generación eficiente y consciente de la posición. VoxSet conserva la simplicidad y las ventajas de compresión de los métodos VecSet previos, a la vez que introduce una estructura explícita en el espacio latente, permitiendo que los embeddings posicionales guíen la generación y habilitando un escalado sólido a nivel de token durante la prueba. Basado en esta representación, LATTICE adopta un pipeline de dos etapas: primero genera un ancla geométrica voxelizada dispersa y luego produce la geometría detallada utilizando un transformador de flujo rectificado. Nuestro método es simple en su esencia, pero admite decodificación a resolución arbitraria, entrenamiento de bajo coste y esquemas de inferencia flexibles, logrando un rendimiento de vanguardia en varios aspectos y ofreciendo un paso significativo hacia la creación de activos 3D escalables y de alta calidad.
English
We present LATTICE, a new framework for high-fidelity 3D asset generation that bridges the quality and scalability gap between 3D and 2D generative models. While 2D image synthesis benefits from fixed spatial grids and well-established transformer architectures, 3D generation remains fundamentally more challenging due to the need to predict both spatial structure and detailed geometric surfaces from scratch. These challenges are exacerbated by the computational complexity of existing 3D representations and the lack of structured and scalable 3D asset encoding schemes. To address this, we propose VoxSet, a semi-structured representation that compresses 3D assets into a compact set of latent vectors anchored to a coarse voxel grid, enabling efficient and position-aware generation. VoxSet retains the simplicity and compression advantages of prior VecSet methods while introducing explicit structure into the latent space, allowing positional embeddings to guide generation and enabling strong token-level test-time scaling. Built upon this representation, LATTICE adopts a two-stage pipeline: first generating a sparse voxelized geometry anchor, then producing detailed geometry using a rectified flow transformer. Our method is simple at its core, but supports arbitrary resolution decoding, low-cost training, and flexible inference schemes, achieving state-of-the-art performance on various aspects, and offering a significant step toward scalable, high-quality 3D asset creation.
PDF31December 6, 2025