ChatPaper.aiChatPaper

Difusão Latente de Wavelet (Wala): Modelo Generativo 3D de Bilhões de Parâmetros com Codificações Compactas de Wavelet

Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings

November 12, 2024
Autores: Aditya Sanghi, Aliasghar Khani, Pradyumna Reddy, Arianna Rampini, Derek Cheung, Kamal Rahimi Malekshan, Kanika Madan, Hooman Shayani
cs.AI

Resumo

Modelos generativos 3D em larga escala requerem recursos computacionais substanciais, mas frequentemente falham em capturar detalhes finos e geometrias complexas em altas resoluções. Atribuímos essa limitação à ineficiência das representações atuais, que carecem da compacidade necessária para modelar os generativos de forma eficaz. Para abordar isso, introduzimos uma abordagem inovadora chamada Difusão Latente de Wavelet, ou WaLa, que codifica formas 3D em codificações latentes compactas baseadas em wavelet. Especificamente, comprimimos um campo de distância assinada de 256^3 em uma grade latente de 12^3 vezes 4, alcançando uma impressionante taxa de compressão de 2427x com perda mínima de detalhes. Esse alto nível de compressão permite que nosso método treine eficientemente redes generativas em larga escala sem aumentar o tempo de inferência. Nossos modelos, tanto condicionais quanto incondicionais, contêm aproximadamente um bilhão de parâmetros e geram com sucesso formas 3D de alta qualidade em resolução de 256^3. Além disso, o WaLa oferece inferência rápida, produzindo formas em dois a quatro segundos, dependendo da condição, apesar da escala do modelo. Demonstramos desempenho de ponta em vários conjuntos de dados, com melhorias significativas na qualidade de geração, diversidade e eficiência computacional. Disponibilizamos nosso código aberto e, até onde sabemos, lançamos os maiores modelos generativos 3D pré-treinados em diferentes modalidades.
English
Large-scale 3D generative models require substantial computational resources yet often fall short in capturing fine details and complex geometries at high resolutions. We attribute this limitation to the inefficiency of current representations, which lack the compactness required to model the generative models effectively. To address this, we introduce a novel approach called Wavelet Latent Diffusion, or WaLa, that encodes 3D shapes into wavelet-based, compact latent encodings. Specifically, we compress a 256^3 signed distance field into a 12^3 times 4 latent grid, achieving an impressive 2427x compression ratio with minimal loss of detail. This high level of compression allows our method to efficiently train large-scale generative networks without increasing the inference time. Our models, both conditional and unconditional, contain approximately one billion parameters and successfully generate high-quality 3D shapes at 256^3 resolution. Moreover, WaLa offers rapid inference, producing shapes within two to four seconds depending on the condition, despite the model's scale. We demonstrate state-of-the-art performance across multiple datasets, with significant improvements in generation quality, diversity, and computational efficiency. We open-source our code and, to the best of our knowledge, release the largest pretrained 3D generative models across different modalities.
PDF112November 13, 2024