ShapeLLM-Omni: Un Modello Linguistico Multimodale Nativo per la Generazione e Comprensione 3D
ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding
June 2, 2025
Autori: Junliang Ye, Zhengyi Wang, Ruowen Zhao, Shenghao Xie, Jun Zhu
cs.AI
Abstract
Recentemente, le potenti capacità di generazione di immagini da testo di ChatGPT-4o hanno portato a una crescente apprezzamento per i modelli linguistici multimodali nativi di grandi dimensioni. Tuttavia, le sue capacità multimodali rimangono limitate a immagini e testo. Eppure, oltre alle immagini, la capacità di comprendere e generare contenuti 3D è altrettanto cruciale. Per colmare questa lacuna, proponiamo ShapeLLM-Omni, un modello linguistico 3D nativo di grandi dimensioni in grado di comprendere e generare risorse 3D e testo in qualsiasi sequenza. In primo luogo, addestriamo un autoencoder variazionale vettorializzato quantizzato (VQVAE) 3D, che mappa oggetti 3D in uno spazio latente discreto per ottenere una rappresentazione e ricostruzione efficiente e accurata delle forme. Basandoci sui token discreti consapevoli del 3D, costruiamo in modo innovativo un ampio dataset di addestramento continuo denominato 3D-Alpaca, che comprende generazione, comprensione e modifica, fornendo così risorse ricche per la ricerca e l'addestramento futuri. Infine, eseguendo l'addestramento basato su istruzioni del modello Qwen-2.5-vl-7B-Instruct sul dataset 3D-Alpaca. Il nostro lavoro fornisce un tentativo efficace di estendere i modelli multimodali con capacità 3D di base, contribuendo alla futura ricerca nell'IA nativa 3D. Pagina del progetto: https://github.com/JAMESYJL/ShapeLLM-Omni
English
Recently, the powerful text-to-image capabilities of ChatGPT-4o have led to
growing appreciation for native multimodal large language models. However, its
multimodal capabilities remain confined to images and text. Yet beyond images,
the ability to understand and generate 3D content is equally crucial. To
address this gap, we propose ShapeLLM-Omni-a native 3D large language model
capable of understanding and generating 3D assets and text in any sequence.
First, we train a 3D vector-quantized variational autoencoder (VQVAE), which
maps 3D objects into a discrete latent space to achieve efficient and accurate
shape representation and reconstruction. Building upon the 3D-aware discrete
tokens, we innovatively construct a large-scale continuous training dataset
named 3D-Alpaca, encompassing generation, comprehension, and editing, thus
providing rich resources for future research and training. Finally, by
performing instruction-based training of the Qwen-2.5-vl-7B-Instruct model on
the 3D-Alpaca dataset. Our work provides an effective attempt at extending
multimodal models with basic 3D capabilities, which contributes to future
research in 3D-native AI. Project page:
https://github.com/JAMESYJL/ShapeLLM-Omni