ChatPaper.aiChatPaper

LATTICE: 高精細3D生成の大規模民主化

LATTICE: Democratize High-Fidelity 3D Generation at Scale

November 24, 2025
著者: Zeqiang Lai, Yunfei Zhao, Zibo Zhao, Haolin Liu, Qingxiang Lin, Jingwei Huang, Chunchao Guo, Xiangyu Yue
cs.AI

要旨

本論文では、3D生成モデルと2D生成モデルの間の品質と拡張性のギャップを埋める、高精細な3Dアセット生成のための新規フレームワーク「LATTICE」を提案する。2D画像合成は固定された空間グリッドと確立されたトランスフォーマーアーキテクチャの恩恵を受けているが、3D生成は、空間構造と詳細な幾何学的表面の両方を一から予測する必要があるため、本質的に困難である。これらの課題は、既存の3D表現の計算複雑性と、構造化され拡張可能な3Dアセット符号化方式の欠如によってさらに悪化している。この問題に対処するため、我々は「VoxSet」を提案する。これは、3Dアセットを粗いボクセルグリッドに固定されたコンパクトな潜在ベクトルの集合に圧縮する半構造化表現であり、効率的で位置認識型の生成を可能にする。VoxSetは、従来のVecSet手法の単純さと圧縮の利点を保持しつつ、潜在空間に明示的な構造を導入することで、位置埋め込みによる生成の誘導と、強力なトークンレベルでのテスト時スケーリングを実現する。この表現に基づいて構築されたLATTICEは、2段階のパイプラインを採用する:まず疎なボクセル化されたジオメトリのアンカーを生成し、次に修正フロートランスフォーマーを用いて詳細なジオメトリを生成する。本手法は核心部が単純でありながら、任意解像度のデコード、低コストな学習、柔軟な推論スキームをサポートし、様々な側面でstate-of-the-artの性能を達成し、拡張性の高い高品質な3Dアセット作成に向けた重要な一歩を提供する。
English
We present LATTICE, a new framework for high-fidelity 3D asset generation that bridges the quality and scalability gap between 3D and 2D generative models. While 2D image synthesis benefits from fixed spatial grids and well-established transformer architectures, 3D generation remains fundamentally more challenging due to the need to predict both spatial structure and detailed geometric surfaces from scratch. These challenges are exacerbated by the computational complexity of existing 3D representations and the lack of structured and scalable 3D asset encoding schemes. To address this, we propose VoxSet, a semi-structured representation that compresses 3D assets into a compact set of latent vectors anchored to a coarse voxel grid, enabling efficient and position-aware generation. VoxSet retains the simplicity and compression advantages of prior VecSet methods while introducing explicit structure into the latent space, allowing positional embeddings to guide generation and enabling strong token-level test-time scaling. Built upon this representation, LATTICE adopts a two-stage pipeline: first generating a sparse voxelized geometry anchor, then producing detailed geometry using a rectified flow transformer. Our method is simple at its core, but supports arbitrary resolution decoding, low-cost training, and flexible inference schemes, achieving state-of-the-art performance on various aspects, and offering a significant step toward scalable, high-quality 3D asset creation.
PDF31December 6, 2025