Poda Adaptativa para Aumentar a Robustez e Reduzir a Sobrecarga Computacional em Buscas de Pontos de Sela Aceleradas por Processos Gaussianos

Resumo

A regressão por processo gaussiano (GP) oferece uma estratégia para acelerar a busca por pontos de sela em superfícies de energia de alta dimensionalidade, reduzindo o número de vezes que a energia e suas derivadas em relação às coordenadas atômicas precisam ser avaliadas. No entanto, a sobrecarga computacional na otimização dos hiperparâmetros pode ser significativa e tornar a abordagem ineficiente. Falhas também podem ocorrer se a busca avançar muito em regiões que não são bem representadas pelo modelo GP. Aqui, esses desafios são resolvidos utilizando medidas de transporte ótimo com consciência geométrica e uma estratégia de poda ativa que emprega uma soma das distâncias de Wasserstein-1 para cada tipo de átomo na amostragem de pontos mais distantes, selecionando um subconjunto de tamanho fixo de configurações geometricamente diversas para evitar o aumento rápido do custo das atualizações do GP à medida que mais observações são feitas. A estabilidade é aprimorada por uma métrica invariante a permutações que fornece um raio de confiança confiável para parada antecipada e uma penalidade de barreira logarítmica para o crescimento da variância do sinal. Essas alterações algorítmicas fisicamente motivadas demonstram sua eficácia ao reduzir para menos da metade o tempo computacional médio em um conjunto de 238 configurações desafiadoras de um conjunto de dados previamente publicado de reações químicas. Com essas melhorias, a abordagem GP é estabelecida como um algoritmo robusto e escalável para acelerar a busca por pontos de sela quando a avaliação da energia e das forças atômicas requer um esforço computacional significativo.

English

Gaussian process (GP) regression provides a strategy for accelerating saddle point searches on high-dimensional energy surfaces by reducing the number of times the energy and its derivatives with respect to atomic coordinates need to be evaluated. The computational overhead in the hyperparameter optimization can, however, be large and make the approach inefficient. Failures can also occur if the search ventures too far into regions that are not represented well enough by the GP model. Here, these challenges are resolved by using geometry-aware optimal transport measures and an active pruning strategy using a summation over Wasserstein-1 distances for each atom-type in farthest-point sampling, selecting a fixed-size subset of geometrically diverse configurations to avoid rapidly increasing cost of GP updates as more observations are made. Stability is enhanced by permutation-invariant metric that provides a reliable trust radius for early-stopping and a logarithmic barrier penalty for the growth of the signal variance. These physically motivated algorithmic changes prove their efficacy by reducing to less than a half the mean computational time on a set of 238 challenging configurations from a previously published data set of chemical reactions. With these improvements, the GP approach is established as, a robust and scalable algorithm for accelerating saddle point searches when the evaluation of the energy and atomic forces requires significant computational effort.

Poda Adaptativa para Aumentar a Robustez e Reduzir a Sobrecarga Computacional em Buscas de Pontos de Sela Aceleradas por Processos Gaussianos

Adaptive Pruning for Increased Robustness and Reduced Computational Overhead in Gaussian Process Accelerated Saddle Point Searches

Resumo

Support