Difusión Latente de Wavelet (Wala): Modelo Generativo 3D de Mil Millones de Parámetros con Codificaciones Compactas de Wavelet
Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings
November 12, 2024
Autores: Aditya Sanghi, Aliasghar Khani, Pradyumna Reddy, Arianna Rampini, Derek Cheung, Kamal Rahimi Malekshan, Kanika Madan, Hooman Shayani
cs.AI
Resumen
Los modelos generativos 3D a gran escala requieren recursos computacionales sustanciales pero a menudo no logran capturar detalles finos y geometrías complejas a altas resoluciones. Atribuimos esta limitación a la ineficiencia de las representaciones actuales, que carecen de la compacidad necesaria para modelar de manera efectiva los modelos generativos. Para abordar esto, presentamos un enfoque novedoso llamado Difusión Latente Wavelet, o WaLa, que codifica formas 3D en codificaciones latentes compactas basadas en wavelets. Específicamente, comprimimos un campo de distancias firmadas de 256^3 en una cuadrícula latente de 12^3 por 4, logrando una impresionante relación de compresión de 2427 veces con una pérdida mínima de detalle. Este alto nivel de compresión permite que nuestro método entrene eficientemente redes generativas a gran escala sin aumentar el tiempo de inferencia. Nuestros modelos, tanto condicionales como incondicionales, contienen aproximadamente mil millones de parámetros y generan con éxito formas 3D de alta calidad a una resolución de 256^3. Además, WaLa ofrece una inferencia rápida, produciendo formas en dos a cuatro segundos dependiendo de la condición, a pesar de la escala del modelo. Demostramos un rendimiento de vanguardia en múltiples conjuntos de datos, con mejoras significativas en la calidad de generación, diversidad y eficiencia computacional. Publicamos nuestro código y, hasta donde sabemos, liberamos los modelos generativos 3D preentrenados más grandes en diferentes modalidades.
English
Large-scale 3D generative models require substantial computational resources
yet often fall short in capturing fine details and complex geometries at high
resolutions. We attribute this limitation to the inefficiency of current
representations, which lack the compactness required to model the generative
models effectively. To address this, we introduce a novel approach called
Wavelet Latent Diffusion, or WaLa, that encodes 3D shapes into wavelet-based,
compact latent encodings. Specifically, we compress a 256^3 signed distance
field into a 12^3 times 4 latent grid, achieving an impressive 2427x
compression ratio with minimal loss of detail. This high level of compression
allows our method to efficiently train large-scale generative networks without
increasing the inference time. Our models, both conditional and unconditional,
contain approximately one billion parameters and successfully generate
high-quality 3D shapes at 256^3 resolution. Moreover, WaLa offers rapid
inference, producing shapes within two to four seconds depending on the
condition, despite the model's scale. We demonstrate state-of-the-art
performance across multiple datasets, with significant improvements in
generation quality, diversity, and computational efficiency. We open-source our
code and, to the best of our knowledge, release the largest pretrained 3D
generative models across different modalities.