가우시안 프로세스 기반 안장점 탐색에서 강건성 향상과 계산 부담 감소를 위한 적응형 가지치기
Adaptive Pruning for Increased Robustness and Reduced Computational Overhead in Gaussian Process Accelerated Saddle Point Searches
October 7, 2025
저자: Rohit Goswami, Hannes Jónsson
cs.AI
초록
가우시안 프로세스(GP) 회귀는 원자 좌표에 대한 에너지와 그 도함수를 평가해야 하는 횟수를 줄임으로써 고차원 에너지 표면에서의 안장점 탐색을 가속화하는 전략을 제공합니다. 그러나 하이퍼파라미터 최적화에서의 계산 오버헤드는 클 수 있으며, 이로 인해 접근 방식이 비효율적일 수 있습니다. 또한, GP 모델이 충분히 잘 표현하지 못하는 영역으로 탐색이 너무 멀리 진행되면 실패가 발생할 수도 있습니다. 본 연구에서는 이러한 문제를 기하학적 최적 수송 측정법과 원자 유형별 Wasserstein-1 거리의 합을 사용한 능동적 가지치기 전략을 통해 해결합니다. 이는 가장 먼 점 샘플링에서 기하학적으로 다양한 구성을 고정 크기 부분집합으로 선택하여, 더 많은 관측이 이루어짐에 따라 GP 업데이트 비용이 급격히 증가하는 것을 방지합니다. 또한, 순열 불변 메트릭을 통해 신뢰 반경을 제공하여 조기 중단을 가능하게 하고, 신호 분산의 증가에 대한 로그 장벽 페널티를 적용하여 안정성을 강화합니다. 이러한 물리적으로 동기를 부여받은 알고리즘 변경 사항은 이전에 발표된 화학 반응 데이터 세트에서 238개의 도전적인 구성에 대한 평균 계산 시간을 절반 이하로 줄임으로써 그 효능을 입증했습니다. 이러한 개선을 통해 GP 접근법은 에너지와 원자 힘의 평가에 상당한 계산 노력이 필요한 경우 안장점 탐색을 가속화하는 강력하고 확장 가능한 알고리즘으로 자리 잡았습니다.
English
Gaussian process (GP) regression provides a strategy for accelerating saddle
point searches on high-dimensional energy surfaces by reducing the number of
times the energy and its derivatives with respect to atomic coordinates need to
be evaluated. The computational overhead in the hyperparameter optimization
can, however, be large and make the approach inefficient. Failures can also
occur if the search ventures too far into regions that are not represented well
enough by the GP model. Here, these challenges are resolved by using
geometry-aware optimal transport measures and an active pruning strategy using
a summation over Wasserstein-1 distances for each atom-type in farthest-point
sampling, selecting a fixed-size subset of geometrically diverse configurations
to avoid rapidly increasing cost of GP updates as more observations are made.
Stability is enhanced by permutation-invariant metric that provides a reliable
trust radius for early-stopping and a logarithmic barrier penalty for the
growth of the signal variance. These physically motivated algorithmic changes
prove their efficacy by reducing to less than a half the mean computational
time on a set of 238 challenging configurations from a previously published
data set of chemical reactions. With these improvements, the GP approach is
established as, a robust and scalable algorithm for accelerating saddle point
searches when the evaluation of the energy and atomic forces requires
significant computational effort.