ChatPaper.aiChatPaper

Scalabilità delle CNN Sferiche

Scaling Spherical CNNs

June 8, 2023
Autori: Carlos Esteves, Jean-Jacques Slotine, Ameesh Makadia
cs.AI

Abstract

Le CNN sferiche generalizzano le CNN a funzioni sulla sfera, utilizzando convoluzioni sferiche come operazione lineare principale. Il modo più preciso ed efficiente per calcolare le convoluzioni sferiche è nel dominio spettrale (tramite il teorema di convoluzione), che rimane comunque più costoso rispetto alle usuali convoluzioni piane. Per questo motivo, le applicazioni delle CNN sferiche sono state finora limitate a problemi di piccola scala che possono essere affrontati con una capacità modellistica ridotta. In questo lavoro, dimostriamo come le CNN sferiche possano essere scalate per problemi molto più grandi. Per raggiungere questo obiettivo, apportiamo miglioramenti critici, tra cui nuove varianti di componenti modellistici comuni, un'implementazione delle operazioni core per sfruttare le caratteristiche degli acceleratori hardware, e rappresentazioni di input specifiche per l'applicazione che sfruttano le proprietà del nostro modello. Gli esperimenti mostrano che le nostre CNN sferiche più grandi raggiungono lo stato dell'arte su diversi target del benchmark molecolare QM9, precedentemente dominato da reti neurali grafiche equivarianti, e ottengono prestazioni competitive su molteplici task di previsione meteorologica. Il nostro codice è disponibile all'indirizzo https://github.com/google-research/spherical-cnn.
English
Spherical CNNs generalize CNNs to functions on the sphere, by using spherical convolutions as the main linear operation. The most accurate and efficient way to compute spherical convolutions is in the spectral domain (via the convolution theorem), which is still costlier than the usual planar convolutions. For this reason, applications of spherical CNNs have so far been limited to small problems that can be approached with low model capacity. In this work, we show how spherical CNNs can be scaled for much larger problems. To achieve this, we make critical improvements including novel variants of common model components, an implementation of core operations to exploit hardware accelerator characteristics, and application-specific input representations that exploit the properties of our model. Experiments show our larger spherical CNNs reach state-of-the-art on several targets of the QM9 molecular benchmark, which was previously dominated by equivariant graph neural networks, and achieve competitive performance on multiple weather forecasting tasks. Our code is available at https://github.com/google-research/spherical-cnn.
PDF20December 15, 2024