EquiformerV3: Escalonamento de Transformadores de Atenção em Grafos SE(3)-Equivariantes Eficientes, Expressivos e Gerais
EquiformerV3: Scaling Efficient, Expressive, and General SE(3)-Equivariant Graph Attention Transformers
April 10, 2026
Autores: Yi-Lun Liao, Alexander J. Hoffman, Sabrina C. Shen, Alexandre Duval, Sam Walton Norwood, Tess Smidt
cs.AI
Resumo
**Versão 1 (Mais Formal e Literal):**
À medida que as redes neurais de grafos equivariantes a SE(3) amadurecem como uma ferramenta central para a modelagem atomística 3D, melhorar sua eficiência, expressividade e consistência física tornou-se um desafio central para aplicações em larga escala. Neste trabalho, apresentamos o EquiformerV3, a terceira geração do Transformer de atenção em grafos equivariante a SE(3), projetado para avançar em todas as três dimensões: eficiência, expressividade e generalidade. Com base no EquiformerV2, temos os três avanços principais a seguir. Primeiro, otimizamos a implementação de software, alcançando um ganho de velocidade de 1,75 vezes. Segundo, introduzimos modificações simples e eficazes no EquiformerV2, incluindo normalização de camada mesclada equivariante, hiperparâmetros aprimorados para a rede *feedforward* e atenção com corte de raio suave. Terceiro, propomos ativações SwiGLU-S² para incorporar interações de muitos corpos para melhor expressividade teórica e para preservar a equivariância estrita enquanto reduz a complexidade da amostragem de grades S². Juntas, as ativações SwiGLU-S² e a atenção com corte suave permitem a modelagem precisa de superfícies de energia potencial (PES) que variam suavemente, generalizando o EquiformerV3 para tarefas que requerem simulações que conservam energia e derivadas de ordem superior da PES. Com essas melhorias, o EquiformerV3 treinado com a tarefa auxiliar de remoção de ruído de estruturas fora do equilíbrio (DeNS) alcança resultados de última geração no OC20, OMat24 e Matbench Discovery.
**Versão 2 (Mais Fluida e Integrada):**
O amadurecimento das redes neurais de grafos equivariantes a SE(3) como ferramenta fundamental para a modelagem atomística 3D coloca a melhoria de sua eficiência, expressividade e consistência física como um desafio primordial para aplicações em larga escala. Este trabalho introduz o EquiformerV3, a terceira geração do Transformer de atenção em grafos com equivariância SE(3), concebido para progredir simultaneamente em três frentes: eficiência, expressividade e generalidade. A partir do EquiformerV2, realizamos três avanços principais. Primeiramente, uma otimização da implementação de software resultou em um ganho de velocidade de 1,75 vezes. Em segundo lugar, foram introduzidas modificações simples e eficazes no EquiformerV2, como a normalização de camada mesclada equivariante, a melhoria dos hiperparâmetros da rede *feedforward* e um mecanismo de atenção com corte de raio suave. Por fim, propomos as funções de ativação SwiGLU-S², que incorporam interações de muitos corpos para ampliar a expressividade teórica, mantendo a equivariância estrita e reduzindo a complexidade computacional da amostragem em grades S². A combinação das ativações SwiGLU-S² com o mecanismo de atenção de corte suave viabiliza a modelagem precisa de superfícies de energia potencial (PES) de variação suave, conferindo ao EquiformerV3 generalidade para tarefas que exigem simulações com conservação de energia e o cálculo de derivadas de ordem superior da PES. Graças a essas melhorias, o EquiformerV3, quando treinado com a tarefa auxiliar de desruídos de estruturas em não equilíbrio (DeNS), atinge resultados state-of-the-art nos conjuntos de dados OC20, OMat24 e Matbench Discovery.
English
As SE(3)-equivariant graph neural networks mature as a core tool for 3D atomistic modeling, improving their efficiency, expressivity, and physical consistency has become a central challenge for large-scale applications. In this work, we introduce EquiformerV3, the third generation of the SE(3)-equivariant graph attention Transformer, designed to advance all three dimensions: efficiency, expressivity, and generality. Building on EquiformerV2, we have the following three key advances. First, we optimize the software implementation, achieving 1.75times speedup. Second, we introduce simple and effective modifications to EquiformerV2, including equivariant merged layer normalization, improved feedforward network hyper-parameters, and attention with smooth radius cutoff. Third, we propose SwiGLU-S^2 activations to incorporate many-body interactions for better theoretical expressivity and to preserve strict equivariance while reducing the complexity of sampling S^2 grids. Together, SwiGLU-S^2 activations and smooth-cutoff attention enable accurate modeling of smoothly varying potential energy surfaces (PES), generalizing EquiformerV3 to tasks requiring energy-conserving simulations and higher-order derivatives of PES. With these improvements, EquiformerV3 trained with the auxiliary task of denoising non-equilibrium structures (DeNS) achieves state-of-the-art results on OC20, OMat24, and Matbench Discovery.