LATTICE: Democratizar a Geração 3D de Alta Fidelidade em Escala

Resumo

Apresentamos o LATTICE, uma nova estrutura para geração de ativos 3D de alta fidelidade que preenche a lacuna de qualidade e escalabilidade entre os modelos generativos 2D e 3D. Embora a síntese de imagens 2D se beneficie de grades espaciais fixas e arquiteturas de transformer bem estabelecidas, a geração 3D permanece fundamentalmente mais desafiadora devido à necessidade de prever tanto a estrutura espacial quanto as superfícies geométricas detalhadas do zero. Esses desafios são exacerbados pela complexidade computacional das representações 3D existentes e pela falta de esquemas estruturados e escaláveis de codificação de ativos 3D. Para resolver isso, propomos o VoxSet, uma representação semi-estruturada que comprime ativos 3D em um conjunto compacto de vetores latentes ancorados a uma grade de voxels grossa, permitindo uma geração eficiente e consciente da posição. O VoxSet mantém a simplicidade e as vantagens de compressão dos métodos VecSet anteriores, ao mesmo tempo que introduz estrutura explícita no espaço latente, permitindo que embeddings posicionais guiem a geração e possibilitem um forte escalonamento em tempo de teste a nível de token. Construído sobre esta representação, o LATTICE adota um pipeline de dois estágios: primeiro gera uma âncora de geometria voxelizada esparsa e, em seguida, produz geometria detalhada usando um transformer de fluxo retificado. Nosso método é simples em sua essência, mas suporta decodificação em resolução arbitrária, treinamento de baixo custo e esquemas de inferência flexíveis, alcançando desempenho de ponta em vários aspectos e representando um passo significativo em direção à criação escalável e de alta qualidade de ativos 3D.

English

We present LATTICE, a new framework for high-fidelity 3D asset generation that bridges the quality and scalability gap between 3D and 2D generative models. While 2D image synthesis benefits from fixed spatial grids and well-established transformer architectures, 3D generation remains fundamentally more challenging due to the need to predict both spatial structure and detailed geometric surfaces from scratch. These challenges are exacerbated by the computational complexity of existing 3D representations and the lack of structured and scalable 3D asset encoding schemes. To address this, we propose VoxSet, a semi-structured representation that compresses 3D assets into a compact set of latent vectors anchored to a coarse voxel grid, enabling efficient and position-aware generation. VoxSet retains the simplicity and compression advantages of prior VecSet methods while introducing explicit structure into the latent space, allowing positional embeddings to guide generation and enabling strong token-level test-time scaling. Built upon this representation, LATTICE adopts a two-stage pipeline: first generating a sparse voxelized geometry anchor, then producing detailed geometry using a rectified flow transformer. Our method is simple at its core, but supports arbitrary resolution decoding, low-cost training, and flexible inference schemes, achieving state-of-the-art performance on various aspects, and offering a significant step toward scalable, high-quality 3D asset creation.