LATTICE: Демократизация масштабируемого создания высококачественных 3D-моделей
LATTICE: Democratize High-Fidelity 3D Generation at Scale
November 24, 2025
Авторы: Zeqiang Lai, Yunfei Zhao, Zibo Zhao, Haolin Liu, Qingxiang Lin, Jingwei Huang, Chunchao Guo, Xiangyu Yue
cs.AI
Аннотация
Мы представляем LATTICE — новый фреймворк для генерации 3D-ассетов с высокой точностью, который преодолевает разрыв в качестве и масштабируемости между 3D- и 2D-генеративными моделями. В то время как синтез 2D-изображений выигрывает от фиксированных пространственных сеток и хорошо отработанных трансформерных архитектур, 3D-генерация остается принципиально более сложной задачей из-за необходимости предсказывать с нуля как пространственную структуру, так и детализированные геометрические поверхности. Эти сложности усугубляются вычислительной сложностью существующих 3D-представлений и отсутствием структурированных и масштабируемых схем кодирования 3D-ассетов. Чтобы решить эту проблему, мы предлагаем VoxSet — полуструктурированное представление, которое сжимает 3D-ассеты в компактный набор латентных векторов, привязанных к coarse-воксельной сетке, что обеспечивает эффективную и позиционно-осознанную генерацию. VoxSet сохраняет простоту и преимущества сжатия предшествующих методов VecSet, одновременно вводя явную структуру в латентное пространство, что позволяет позиционным эмбеддингам направлять генерацию и обеспечивает мощное масштабирование на уровне токенов во время тестирования. Построенный на этом представлении, LATTICE использует двухэтапный конвейер: сначала генерируется разреженный вокселизированный геометрический якорь, а затем создается детализированная геометрия с помощью трансформера с rectified flow. Наш метод прост в своей основе, но поддерживает декодирование с произвольным разрешением, обучение с низкими затратами и гибкие схемы вывода, достигая передовых результатов по различным аспектам и делая значительный шаг к масштабируемому созданию высококачественных 3D-ассетов.
English
We present LATTICE, a new framework for high-fidelity 3D asset generation that bridges the quality and scalability gap between 3D and 2D generative models. While 2D image synthesis benefits from fixed spatial grids and well-established transformer architectures, 3D generation remains fundamentally more challenging due to the need to predict both spatial structure and detailed geometric surfaces from scratch. These challenges are exacerbated by the computational complexity of existing 3D representations and the lack of structured and scalable 3D asset encoding schemes. To address this, we propose VoxSet, a semi-structured representation that compresses 3D assets into a compact set of latent vectors anchored to a coarse voxel grid, enabling efficient and position-aware generation. VoxSet retains the simplicity and compression advantages of prior VecSet methods while introducing explicit structure into the latent space, allowing positional embeddings to guide generation and enabling strong token-level test-time scaling. Built upon this representation, LATTICE adopts a two-stage pipeline: first generating a sparse voxelized geometry anchor, then producing detailed geometry using a rectified flow transformer. Our method is simple at its core, but supports arbitrary resolution decoding, low-cost training, and flexible inference schemes, achieving state-of-the-art performance on various aspects, and offering a significant step toward scalable, high-quality 3D asset creation.