ChatPaper.aiChatPaper

Escalonamento de CNNs Esféricas

Scaling Spherical CNNs

June 8, 2023
Autores: Carlos Esteves, Jean-Jacques Slotine, Ameesh Makadia
cs.AI

Resumo

As CNNs esféricas generalizam as CNNs para funções na esfera, utilizando convoluções esféricas como a principal operação linear. A maneira mais precisa e eficiente de calcular convoluções esféricas é no domínio espectral (via o teorema da convolução), o que ainda é mais custoso do que as convoluções planares usuais. Por esse motivo, as aplicações das CNNs esféricas têm sido, até agora, limitadas a problemas pequenos que podem ser abordados com baixa capacidade de modelo. Neste trabalho, mostramos como as CNNs esféricas podem ser escalonadas para problemas muito maiores. Para alcançar isso, realizamos melhorias críticas, incluindo variantes inéditas de componentes comuns de modelos, uma implementação de operações principais para explorar as características de aceleradores de hardware e representações de entrada específicas para aplicações que exploram as propriedades do nosso modelo. Experimentos mostram que nossas CNNs esféricas maiores atingem o estado da arte em vários alvos do benchmark molecular QM9, que anteriormente era dominado por redes neurais de grafos equivariantes, e alcançam desempenho competitivo em múltiplas tarefas de previsão do tempo. Nosso código está disponível em https://github.com/google-research/spherical-cnn.
English
Spherical CNNs generalize CNNs to functions on the sphere, by using spherical convolutions as the main linear operation. The most accurate and efficient way to compute spherical convolutions is in the spectral domain (via the convolution theorem), which is still costlier than the usual planar convolutions. For this reason, applications of spherical CNNs have so far been limited to small problems that can be approached with low model capacity. In this work, we show how spherical CNNs can be scaled for much larger problems. To achieve this, we make critical improvements including novel variants of common model components, an implementation of core operations to exploit hardware accelerator characteristics, and application-specific input representations that exploit the properties of our model. Experiments show our larger spherical CNNs reach state-of-the-art on several targets of the QM9 molecular benchmark, which was previously dominated by equivariant graph neural networks, and achieve competitive performance on multiple weather forecasting tasks. Our code is available at https://github.com/google-research/spherical-cnn.
PDF20December 15, 2024