Naar data-efficiënte voorafgaande training voor het voorspellen van atomaire eigenschappen
Towards Data-Efficient Pretraining for Atomic Property Prediction
February 16, 2025
Auteurs: Yasir Ghunaim, Hasan Abed Al Kader Hammoud, Bernard Ghanem
cs.AI
Samenvatting
Dit artikel daagt het recente paradigma in de voorspelling van atomaire eigenschappen uit, dat vooruitgang koppelt aan groeiende datasetgroottes en rekenbronnen. We tonen aan dat vooraf trainen op een zorgvuldig geselecteerde, taakrelevante dataset de prestaties van grootschalige vooraf training kan evenaren of zelfs overtreffen, terwijl slechts 1/24e van de rekenkosten wordt gebruikt. We introduceren de Chemical Similarity Index (CSI), een nieuwe metriek geïnspireerd op de Fréchet Inception Distance uit de computer vision, voor moleculaire grafieken die de afstemming tussen upstream vooraf trainingsdatasets en downstream taken kwantificeert. Door de meest relevante dataset met minimale CSI-afstand te selecteren, laten we zien dat modellen die vooraf zijn getraind op een kleinere, gerichte dataset consistent beter presteren dan die getraind op enorme, gemengde datasets zoals JMP, zelfs wanneer die grotere datasets de relevante dataset omvatten. Contra-intuïtief vinden we ook dat het ongericht toevoegen van meer data de modelprestaties kan verslechteren wanneer de extra data slecht aansluit bij de taak. Onze bevindingen benadrukken dat kwaliteit vaak superieur is aan kwantiteit bij vooraf trainen voor de voorspelling van atomaire eigenschappen.
English
This paper challenges the recent paradigm in atomic property prediction that
links progress to growing dataset sizes and computational resources. We show
that pretraining on a carefully selected, task-relevant dataset can match or
even surpass large-scale pretraining, while using as little as 1/24th of the
computational cost. We introduce the Chemical Similarity Index (CSI), a novel
metric inspired by computer vision's Fr\'echet Inception Distance, for
molecular graphs which quantifies the alignment between upstream pretraining
datasets and downstream tasks. By selecting the most relevant dataset with
minimal CSI distance, we show that models pretrained on a smaller, focused
dataset consistently outperform those pretrained on massive, mixed datasets
such as JMP, even when those larger datasets include the relevant dataset.
Counterintuitively, we also find that indiscriminately adding more data can
degrade model performance when the additional data poorly aligns with the task
at hand. Our findings highlight that quality often outperforms quantity in
pretraining for atomic property prediction.Summary
AI-Generated Summary