EquiformerV3: Escalando Transformadores de Atención en Grafos SE(3)-Equivariantes Eficientes, Expresivos y Generales

Resumen

A medida que las redes neuronales de grafos SE(3)-equivariantes se consolidan como una herramienta fundamental para el modelado atomístico 3D, la mejora de su eficiencia, expresividad y consistencia física se ha convertido en un desafío central para las aplicaciones a gran escala. En este trabajo, presentamos EquiformerV3, la tercera generación del Transformer de atención de grafos SE(3)-equivariante, diseñado para avanzar en las tres dimensiones: eficiencia, expresividad y generalidad. Partiendo de EquiformerV2, presentamos tres avances clave. En primer lugar, optimizamos la implementación del software, logrando una aceleración de 1.75 veces. En segundo lugar, introducimos modificaciones simples y efectivas a EquiformerV2, que incluyen una normalización de capas fusionada equivariante, hiperparámetros mejorados para la red de avance y atención con un corte de radio suave. En tercer lugar, proponemos activaciones SwiGLU-S^2 para incorporar interacciones de muchos cuerpos con el fin de lograr una mejor expresividad teórica y preservar la equivariancia estricta, a la vez que se reduce la complejidad del muestreo de las redes S^2. En conjunto, las activaciones SwiGLU-S^2 y la atención con corte suave permiten modelar con precisión superficies de energía potencial (PES) que varían suavemente, generalizando EquiformerV3 para tareas que requieren simulaciones que conservan la energía y derivadas de orden superior de la PES. Con estas mejoras, EquiformerV3 entrenado con la tarea auxiliar de eliminación de ruido en estructuras de no equilibrio (DeNS) logra resultados de vanguardia en OC20, OMat24 y Matbench Discovery.

English

As SE(3)-equivariant graph neural networks mature as a core tool for 3D atomistic modeling, improving their efficiency, expressivity, and physical consistency has become a central challenge for large-scale applications. In this work, we introduce EquiformerV3, the third generation of the SE(3)-equivariant graph attention Transformer, designed to advance all three dimensions: efficiency, expressivity, and generality. Building on EquiformerV2, we have the following three key advances. First, we optimize the software implementation, achieving 1.75times speedup. Second, we introduce simple and effective modifications to EquiformerV2, including equivariant merged layer normalization, improved feedforward network hyper-parameters, and attention with smooth radius cutoff. Third, we propose SwiGLU-S^2 activations to incorporate many-body interactions for better theoretical expressivity and to preserve strict equivariance while reducing the complexity of sampling S^2 grids. Together, SwiGLU-S^2 activations and smooth-cutoff attention enable accurate modeling of smoothly varying potential energy surfaces (PES), generalizing EquiformerV3 to tasks requiring energy-conserving simulations and higher-order derivatives of PES. With these improvements, EquiformerV3 trained with the auxiliary task of denoising non-equilibrium structures (DeNS) achieves state-of-the-art results on OC20, OMat24, and Matbench Discovery.

EquiformerV3: Escalando Transformadores de Atención en Grafos SE(3)-Equivariantes Eficientes, Expresivos y Generales

EquiformerV3: Scaling Efficient, Expressive, and General SE(3)-Equivariant Graph Attention Transformers

Resumen

Support