Hacia el Preentrenamiento Eficiente de Datos para la Predicción de Propiedades Atómicas
Towards Data-Efficient Pretraining for Atomic Property Prediction
February 16, 2025
Autores: Yasir Ghunaim, Hasan Abed Al Kader Hammoud, Bernard Ghanem
cs.AI
Resumen
Este documento desafía el paradigma reciente en la predicción de propiedades atómicas que vincula el progreso al crecimiento de los tamaños de conjuntos de datos y recursos computacionales. Mostramos que el preentrenamiento en un conjunto de datos cuidadosamente seleccionado y relevante para la tarea puede igualar o incluso superar el preentrenamiento a gran escala, utilizando tan solo 1/24 del costo computacional. Introducimos el Índice de Similitud Química (CSI), una métrica novedosa inspirada en la Distancia de Inception de Fréchet de la visión por computadora, para grafos moleculares que cuantifica la alineación entre los conjuntos de datos de preentrenamiento iniciales y las tareas posteriores. Al seleccionar el conjunto de datos más relevante con una distancia CSI mínima, demostramos que los modelos preentrenados en un conjunto de datos más pequeño y enfocado superan consistentemente a aquellos preentrenados en conjuntos de datos masivos y mixtos como JMP, incluso cuando esos conjuntos de datos más grandes incluyen el conjunto de datos relevante. Contrariamente a la intuición, también encontramos que agregar más datos indiscriminadamente puede degradar el rendimiento del modelo cuando los datos adicionales no se alinean bien con la tarea en cuestión. Nuestros hallazgos resaltan que la calidad a menudo supera a la cantidad en el preentrenamiento para la predicción de propiedades atómicas.
English
This paper challenges the recent paradigm in atomic property prediction that
links progress to growing dataset sizes and computational resources. We show
that pretraining on a carefully selected, task-relevant dataset can match or
even surpass large-scale pretraining, while using as little as 1/24th of the
computational cost. We introduce the Chemical Similarity Index (CSI), a novel
metric inspired by computer vision's Fr\'echet Inception Distance, for
molecular graphs which quantifies the alignment between upstream pretraining
datasets and downstream tasks. By selecting the most relevant dataset with
minimal CSI distance, we show that models pretrained on a smaller, focused
dataset consistently outperform those pretrained on massive, mixed datasets
such as JMP, even when those larger datasets include the relevant dataset.
Counterintuitively, we also find that indiscriminately adding more data can
degrade model performance when the additional data poorly aligns with the task
at hand. Our findings highlight that quality often outperforms quantity in
pretraining for atomic property prediction.Summary
AI-Generated Summary