ChatPaper.aiChatPaper

Escalado de Redes Neuronales Convolucionales Esféricas

Scaling Spherical CNNs

June 8, 2023
Autores: Carlos Esteves, Jean-Jacques Slotine, Ameesh Makadia
cs.AI

Resumen

Las CNNs esféricas generalizan las CNNs a funciones sobre la esfera, utilizando convoluciones esféricas como la operación lineal principal. La forma más precisa y eficiente de calcular convoluciones esféricas es en el dominio espectral (a través del teorema de convolución), lo cual sigue siendo más costoso que las convoluciones planas habituales. Por esta razón, las aplicaciones de las CNNs esféricas hasta ahora se han limitado a problemas pequeños que pueden abordarse con una capacidad de modelo reducida. En este trabajo, mostramos cómo las CNNs esféricas pueden escalarse para problemas mucho más grandes. Para lograrlo, realizamos mejoras críticas que incluyen variantes novedosas de componentes comunes del modelo, una implementación de operaciones centrales para aprovechar las características de los aceleradores de hardware y representaciones de entrada específicas para la aplicación que explotan las propiedades de nuestro modelo. Los experimentos muestran que nuestras CNNs esféricas más grandes alcanzan el estado del arte en varios objetivos del benchmark molecular QM9, que anteriormente estaba dominado por redes neuronales de grafos equivariantes, y logran un rendimiento competitivo en múltiples tareas de pronóstico del tiempo. Nuestro código está disponible en https://github.com/google-research/spherical-cnn.
English
Spherical CNNs generalize CNNs to functions on the sphere, by using spherical convolutions as the main linear operation. The most accurate and efficient way to compute spherical convolutions is in the spectral domain (via the convolution theorem), which is still costlier than the usual planar convolutions. For this reason, applications of spherical CNNs have so far been limited to small problems that can be approached with low model capacity. In this work, we show how spherical CNNs can be scaled for much larger problems. To achieve this, we make critical improvements including novel variants of common model components, an implementation of core operations to exploit hardware accelerator characteristics, and application-specific input representations that exploit the properties of our model. Experiments show our larger spherical CNNs reach state-of-the-art on several targets of the QM9 molecular benchmark, which was previously dominated by equivariant graph neural networks, and achieve competitive performance on multiple weather forecasting tasks. Our code is available at https://github.com/google-research/spherical-cnn.
PDF10December 15, 2024