Hacia el Preentrenamiento Eficiente de Datos para la Predicción de Propiedades Atómicas

Resumen

Este documento desafía el paradigma reciente en la predicción de propiedades atómicas que vincula el progreso al crecimiento de los tamaños de conjuntos de datos y recursos computacionales. Mostramos que el preentrenamiento en un conjunto de datos cuidadosamente seleccionado y relevante para la tarea puede igualar o incluso superar el preentrenamiento a gran escala, utilizando tan solo 1/24 del costo computacional. Introducimos el Índice de Similitud Química (CSI), una métrica novedosa inspirada en la Distancia de Inception de Fréchet de la visión por computadora, para grafos moleculares que cuantifica la alineación entre los conjuntos de datos de preentrenamiento iniciales y las tareas posteriores. Al seleccionar el conjunto de datos más relevante con una distancia CSI mínima, demostramos que los modelos preentrenados en un conjunto de datos más pequeño y enfocado superan consistentemente a aquellos preentrenados en conjuntos de datos masivos y mixtos como JMP, incluso cuando esos conjuntos de datos más grandes incluyen el conjunto de datos relevante. Contrariamente a la intuición, también encontramos que agregar más datos indiscriminadamente puede degradar el rendimiento del modelo cuando los datos adicionales no se alinean bien con la tarea en cuestión. Nuestros hallazgos resaltan que la calidad a menudo supera a la cantidad en el preentrenamiento para la predicción de propiedades atómicas.

English

This paper challenges the recent paradigm in atomic property prediction that links progress to growing dataset sizes and computational resources. We show that pretraining on a carefully selected, task-relevant dataset can match or even surpass large-scale pretraining, while using as little as 1/24th of the computational cost. We introduce the Chemical Similarity Index (CSI), a novel metric inspired by computer vision's Fr\'echet Inception Distance, for molecular graphs which quantifies the alignment between upstream pretraining datasets and downstream tasks. By selecting the most relevant dataset with minimal CSI distance, we show that models pretrained on a smaller, focused dataset consistently outperform those pretrained on massive, mixed datasets such as JMP, even when those larger datasets include the relevant dataset. Counterintuitively, we also find that indiscriminately adding more data can degrade model performance when the additional data poorly aligns with the task at hand. Our findings highlight that quality often outperforms quantity in pretraining for atomic property prediction.

Hacia el Preentrenamiento Eficiente de Datos para la Predicción de Propiedades Atómicas

Towards Data-Efficient Pretraining for Atomic Property Prediction

Resumen

Support