ChatPaper.aiChatPaper

LATTICE: 고품질 3D 생성 기술의 대규모 민주화

LATTICE: Democratize High-Fidelity 3D Generation at Scale

November 24, 2025
저자: Zeqiang Lai, Yunfei Zhao, Zibo Zhao, Haolin Liu, Qingxiang Lin, Jingwei Huang, Chunchao Guo, Xiangyu Yue
cs.AI

초록

본 논문에서는 3D 생성 모델과 2D 생성 모델 간의 품질 및 확장성 격차를 해소하는 고품질 3D 에셋 생성 프레임워크인 LATTICE를 제안합니다. 2D 이미지 합성은 고정된 공간 그리드와 잘 구축된 트랜스포머 아키텍처의 이점을 누리는 반면, 3D 생성은 공간 구조와 상세한 기하학적 표면을 처음부터 예측해야 한다는 근본적인 어려움을 지닙니다. 이러한 과제는 기존 3D 표현 방식의 계산 복잡성과 체계적이고 확장 가능한 3D 에셋 인코딩 방식의 부재로 인해 더욱 악화됩니다. 이를 해결하기 위해, 우리는 VoxSet을 제안합니다. VoxSet은 3D 에셋을 coarse 복셀 그리드에 고정된 compact 잠재 벡터 집합으로 압축하는 반구조적 표현으로, 효율적이고 위치 인식 생성이 가능하게 합니다. VoxSet은 기존 VecSet 방식의 단순성과 압축 이점을 유지하면서 잠재 공간에 명시적 구조를 도입하여 위치 임베딩이 생성을 안내하고 강력한 토큰 수준 테스트 타임 스케일링을 가능하게 합니다. 이 표현을 기반으로 구축된 LATTICE는 두 단계 파이프라인을 채택합니다: 첫째, sparse 복셀화된 geometry anchor를 생성하고, 둘째, 정류 흐름 트랜스포머를 사용하여 상세한 geometry를 생성합니다. 우리의 방법은 핵심적으로 단순하지만 임의의 해상도 디코딩, 저비용 학습, 유연한 추론 방식을 지원하며 다양한 측면에서 최첨단 성능을 달성하여 확장 가능한 고품질 3D 에셋 생성으로의 중요한 진전을 제공합니다.
English
We present LATTICE, a new framework for high-fidelity 3D asset generation that bridges the quality and scalability gap between 3D and 2D generative models. While 2D image synthesis benefits from fixed spatial grids and well-established transformer architectures, 3D generation remains fundamentally more challenging due to the need to predict both spatial structure and detailed geometric surfaces from scratch. These challenges are exacerbated by the computational complexity of existing 3D representations and the lack of structured and scalable 3D asset encoding schemes. To address this, we propose VoxSet, a semi-structured representation that compresses 3D assets into a compact set of latent vectors anchored to a coarse voxel grid, enabling efficient and position-aware generation. VoxSet retains the simplicity and compression advantages of prior VecSet methods while introducing explicit structure into the latent space, allowing positional embeddings to guide generation and enabling strong token-level test-time scaling. Built upon this representation, LATTICE adopts a two-stage pipeline: first generating a sparse voxelized geometry anchor, then producing detailed geometry using a rectified flow transformer. Our method is simple at its core, but supports arbitrary resolution decoding, low-cost training, and flexible inference schemes, achieving state-of-the-art performance on various aspects, and offering a significant step toward scalable, high-quality 3D asset creation.
PDF31December 6, 2025