Squeeze3D: Il tuo modello di generazione 3D è segretamente un compressore neurale estremo

Abstract

Proponiamo Squeeze3D, un framework innovativo che sfrutta la conoscenza implicita appresa da modelli generativi 3D pre-addestrati esistenti per comprimere dati 3D con rapporti di compressione estremamente elevati. Il nostro approccio collega gli spazi latenti tra un encoder pre-addestrato e un modello generativo pre-addestrato attraverso reti di mappatura addestrabili. Qualsiasi modello 3D rappresentato come mesh, nuvola di punti o campo di radianza viene prima codificato dall'encoder pre-addestrato e poi trasformato (cioè compresso) in un codice latente altamente compatto. Questo codice latente può essere efficacemente utilizzato come rappresentazione estremamente compressa della mesh o della nuvola di punti. Una rete di mappatura trasforma il codice latente compresso nello spazio latente di un potente modello generativo, che viene poi condizionato per ricreare il modello 3D originale (cioè decompressione). Squeeze3D viene addestrato interamente su dati sintetici generati e non richiede alcun dataset 3D. L'architettura di Squeeze3D può essere utilizzata in modo flessibile con encoder 3D pre-addestrati esistenti e modelli generativi esistenti. Può supportare in modo flessibile diversi formati, tra cui mesh, nuvole di punti e campi di radianza. I nostri esperimenti dimostrano che Squeeze3D raggiunge rapporti di compressione fino a 2187x per mesh con texture, 55x per nuvole di punti e 619x per campi di radianza, mantenendo una qualità visiva paragonabile a molti metodi esistenti. Squeeze3D comporta solo una piccola latenza di compressione e decompressione poiché non prevede l'addestramento di reti specifiche per oggetti per comprimere un oggetto.

English

We propose Squeeze3D, a novel framework that leverages implicit prior knowledge learnt by existing pre-trained 3D generative models to compress 3D data at extremely high compression ratios. Our approach bridges the latent spaces between a pre-trained encoder and a pre-trained generation model through trainable mapping networks. Any 3D model represented as a mesh, point cloud, or a radiance field is first encoded by the pre-trained encoder and then transformed (i.e. compressed) into a highly compact latent code. This latent code can effectively be used as an extremely compressed representation of the mesh or point cloud. A mapping network transforms the compressed latent code into the latent space of a powerful generative model, which is then conditioned to recreate the original 3D model (i.e. decompression). Squeeze3D is trained entirely on generated synthetic data and does not require any 3D datasets. The Squeeze3D architecture can be flexibly used with existing pre-trained 3D encoders and existing generative models. It can flexibly support different formats, including meshes, point clouds, and radiance fields. Our experiments demonstrate that Squeeze3D achieves compression ratios of up to 2187x for textured meshes, 55x for point clouds, and 619x for radiance fields while maintaining visual quality comparable to many existing methods. Squeeze3D only incurs a small compression and decompression latency since it does not involve training object-specific networks to compress an object.

Squeeze3D: Il tuo modello di generazione 3D è segretamente un compressore neurale estremo

Squeeze3D: Your 3D Generation Model is Secretly an Extreme Neural Compressor

Abstract

Support