EquiformerV3: Skalierung effizienter, ausdrucksstarker und allgemeiner SE(3)-äquivarianter Graph-Aufmerksamkeits-Transformer

Zusammenfassung

Da sich SE(3)-äquivariante graphneurale Netze zu einem zentralen Werkzeug für die 3D-atomare Modellierung entwickeln, ist die Verbesserung ihrer Effizienz, Ausdruckskraft und physikalischen Konsistenz zu einer zentralen Herausforderung für großskalige Anwendungen geworden. In dieser Arbeit stellen wir EquiformerV3 vor, die dritte Generation des SE(3)-äquivarianten Graph-Attention-Transformers, der entwickelt wurde, um alle drei Dimensionen voranzubringen: Effizienz, Ausdruckskraft und Allgemeingültigkeit. Aufbauend auf EquiformerV2 umfassen unsere wesentlichen Verbesserungen drei Kernpunkte. Erstens optimieren wir die Softwareimplementierung und erreichen eine 1,75-fache Beschleunigung. Zweitens führen wir einfache und effektive Modifikationen an EquiformerV2 ein, darunter äquivariante Layer-Normalisierung mit Fusion, verbesserte Hyperparameter für Feedforward-Netze und Attention mit glattem Radius-Cutoff. Drittens schlagen wir SwiGLU-S^2-Aktivierungen vor, um Vielelektronenwechselwirkungen zur Erhöhung der theoretischen Ausdruckskraft einzubeziehen und strikte Äquivarianz beizubehalten, während die Komplexität der Abtastung von S^2-Gittern reduziert wird. Gemeinsam ermöglichen SwiGLU-S^2-Aktivierungen und glatte-Cutoff-Attention eine präzise Modellierung glatt variierender Potentialenergieflächen (PES) und verallgemeinern EquiformerV3 für Aufgaben, die energieerhaltende Simulationen und höhere Ableitungen der PES erfordern. Mit diesen Verbesserungen erzielt EquiformerV3, trainiert mit der Zusatzaufgabe der Entrauschung von Nichtgleichgewichtsstrukturen (DeNS), state-of-the-art Ergebnisse auf OC20, OMat24 und Matbench Discovery.

English

As SE(3)-equivariant graph neural networks mature as a core tool for 3D atomistic modeling, improving their efficiency, expressivity, and physical consistency has become a central challenge for large-scale applications. In this work, we introduce EquiformerV3, the third generation of the SE(3)-equivariant graph attention Transformer, designed to advance all three dimensions: efficiency, expressivity, and generality. Building on EquiformerV2, we have the following three key advances. First, we optimize the software implementation, achieving 1.75times speedup. Second, we introduce simple and effective modifications to EquiformerV2, including equivariant merged layer normalization, improved feedforward network hyper-parameters, and attention with smooth radius cutoff. Third, we propose SwiGLU-S^2 activations to incorporate many-body interactions for better theoretical expressivity and to preserve strict equivariance while reducing the complexity of sampling S^2 grids. Together, SwiGLU-S^2 activations and smooth-cutoff attention enable accurate modeling of smoothly varying potential energy surfaces (PES), generalizing EquiformerV3 to tasks requiring energy-conserving simulations and higher-order derivatives of PES. With these improvements, EquiformerV3 trained with the auxiliary task of denoising non-equilibrium structures (DeNS) achieves state-of-the-art results on OC20, OMat24, and Matbench Discovery.

EquiformerV3: Skalierung effizienter, ausdrucksstarker und allgemeiner SE(3)-äquivarianter Graph-Aufmerksamkeits-Transformer

EquiformerV3: Scaling Efficient, Expressive, and General SE(3)-Equivariant Graph Attention Transformers

Zusammenfassung

Support