Em Direção a um Pré-treinamento Eficiente em Dados para Predição de Propriedades Atômicas
Towards Data-Efficient Pretraining for Atomic Property Prediction
February 16, 2025
Autores: Yasir Ghunaim, Hasan Abed Al Kader Hammoud, Bernard Ghanem
cs.AI
Resumo
Este artigo desafia o paradigma recente na previsão de propriedades atômicas que associa o progresso ao aumento do tamanho dos conjuntos de dados e dos recursos computacionais. Demonstramos que o pré-treinamento em um conjunto de dados cuidadosamente selecionado e relevante para a tarefa pode igualar ou até superar o pré-treinamento em larga escala, utilizando apenas 1/24 do custo computacional. Introduzimos o Índice de Similaridade Química (Chemical Similarity Index - CSI), uma nova métrica inspirada na Distância de Fréchet Inception da visão computacional, para grafos moleculares, que quantifica o alinhamento entre os conjuntos de dados de pré-treinamento e as tarefas subsequentes. Ao selecionar o conjunto de dados mais relevante com a menor distância CSI, mostramos que modelos pré-treinados em um conjunto de dados menor e focado superam consistentemente aqueles pré-treinados em conjuntos de dados massivos e mistos, como o JMP, mesmo quando esses conjuntos maiores incluem o conjunto de dados relevante. Contraintuitivamente, também descobrimos que adicionar indiscriminadamente mais dados pode degradar o desempenho do modelo quando os dados adicionais estão mal alinhados com a tarefa em questão. Nossas descobertas destacam que, no pré-treinamento para previsão de propriedades atômicas, a qualidade frequentemente supera a quantidade.
English
This paper challenges the recent paradigm in atomic property prediction that
links progress to growing dataset sizes and computational resources. We show
that pretraining on a carefully selected, task-relevant dataset can match or
even surpass large-scale pretraining, while using as little as 1/24th of the
computational cost. We introduce the Chemical Similarity Index (CSI), a novel
metric inspired by computer vision's Fr\'echet Inception Distance, for
molecular graphs which quantifies the alignment between upstream pretraining
datasets and downstream tasks. By selecting the most relevant dataset with
minimal CSI distance, we show that models pretrained on a smaller, focused
dataset consistently outperform those pretrained on massive, mixed datasets
such as JMP, even when those larger datasets include the relevant dataset.
Counterintuitively, we also find that indiscriminately adding more data can
degrade model performance when the additional data poorly aligns with the task
at hand. Our findings highlight that quality often outperforms quantity in
pretraining for atomic property prediction.Summary
AI-Generated Summary