Comprensión y Mitigación de Cambios en la Distribución para el Aprendizaje Automático Campos de Fuerza

Resumen

Los Campos de Fuerza de Aprendizaje Automático (MLFFs, por sus siglas en inglés) representan una alternativa prometedora frente a las costosas simulaciones moleculares cuánticas ab initio. Dada la diversidad de espacios químicos de interés y el costo asociado a la generación de nuevos datos, es crucial comprender cómo los MLFFs generalizan más allá de sus distribuciones de entrenamiento. Para caracterizar y entender mejor los cambios de distribución en los MLFFs, realizamos experimentos de diagnóstico en conjuntos de datos químicos, revelando desplazamientos comunes que plantean desafíos significativos, incluso para modelos base entrenados con grandes volúmenes de datos. Basándonos en estas observaciones, planteamos la hipótesis de que los métodos de entrenamiento supervisado actuales regularizan de manera insuficiente los MLFFs, lo que resulta en sobreajuste y en la obtención de representaciones deficientes para sistemas fuera de distribución. A continuación, proponemos dos nuevos métodos como pasos iniciales para mitigar estos cambios de distribución en los MLFFs. Nuestros métodos se centran en estrategias de refinamiento en tiempo de prueba que implican un costo computacional mínimo y no utilizan etiquetas de referencia ab initio costosas. La primera estrategia, basada en la teoría espectral de grafos, modifica las aristas de los grafos de prueba para alinearlos con las estructuras de grafos observadas durante el entrenamiento. Nuestra segunda estrategia mejora las representaciones para sistemas fuera de distribución en tiempo de prueba mediante la toma de pasos de gradiente utilizando un objetivo auxiliar, como un prior físico de bajo costo. Nuestras estrategias de refinamiento en tiempo de prueba reducen significativamente los errores en sistemas fuera de distribución, sugiriendo que los MLFFs son capaces de modelar espacios químicos diversos y pueden avanzar en esa dirección, pero no están siendo entrenados de manera efectiva para lograrlo. Nuestros experimentos establecen puntos de referencia claros para evaluar las capacidades de generalización de la próxima generación de MLFFs. Nuestro código está disponible en https://tkreiman.github.io/projects/mlff_distribution_shifts/.

English

Machine Learning Force Fields (MLFFs) are a promising alternative to expensive ab initio quantum mechanical molecular simulations. Given the diversity of chemical spaces that are of interest and the cost of generating new data, it is important to understand how MLFFs generalize beyond their training distributions. In order to characterize and better understand distribution shifts in MLFFs, we conduct diagnostic experiments on chemical datasets, revealing common shifts that pose significant challenges, even for large foundation models trained on extensive data. Based on these observations, we hypothesize that current supervised training methods inadequately regularize MLFFs, resulting in overfitting and learning poor representations of out-of-distribution systems. We then propose two new methods as initial steps for mitigating distribution shifts for MLFFs. Our methods focus on test-time refinement strategies that incur minimal computational cost and do not use expensive ab initio reference labels. The first strategy, based on spectral graph theory, modifies the edges of test graphs to align with graph structures seen during training. Our second strategy improves representations for out-of-distribution systems at test-time by taking gradient steps using an auxiliary objective, such as a cheap physical prior. Our test-time refinement strategies significantly reduce errors on out-of-distribution systems, suggesting that MLFFs are capable of and can move towards modeling diverse chemical spaces, but are not being effectively trained to do so. Our experiments establish clear benchmarks for evaluating the generalization capabilities of the next generation of MLFFs. Our code is available at https://tkreiman.github.io/projects/mlff_distribution_shifts/.

Comprensión y Mitigación de Cambios en la Distribución para el Aprendizaje Automático Campos de Fuerza

Understanding and Mitigating Distribution Shifts For Machine Learning Force Fields

Resumen

Support