Richtung dateneffizientes Vortraining für die Vorhersage atomarer Eigenschaften
Towards Data-Efficient Pretraining for Atomic Property Prediction
February 16, 2025
Autoren: Yasir Ghunaim, Hasan Abed Al Kader Hammoud, Bernard Ghanem
cs.AI
Zusammenfassung
Dieses Paper stellt das kürzlich aufgekommene Paradigma in der Vorhersage atomarer Eigenschaften in Frage, das Fortschritte mit wachsenden Datensatzgrößen und Rechenressourcen verknüpft. Wir zeigen, dass ein Vortraining auf einem sorgfältig ausgewählten, aufgabenrelevanten Datensatz mit nur 1/24 der Rechenkosten mit großen Vortrainingsansätzen mithalten oder sie sogar übertreffen kann. Wir führen den Chemischen Ähnlichkeitsindex (CSI) ein, eine neue Metrik, inspiriert von der Fréchet-Inception-Distanz der Computer Vision, für Molekülgraphen, die die Übereinstimmung zwischen vorgelagerten Vortrainingsdatensätzen und nachgelagerten Aufgaben quantifiziert. Durch die Auswahl des relevantesten Datensatzes mit minimalem CSI-Abstand zeigen wir, dass Modelle, die auf einem kleineren, fokussierten Datensatz vortrainiert wurden, konsistent besser abschneiden als solche, die auf massiven, gemischten Datensätzen wie JMP vortrainiert wurden, selbst wenn diese größeren Datensätze den relevanten Datensatz enthalten. Gegenintuitiv finden wir auch heraus, dass eine unüberlegte Hinzufügung von mehr Daten die Leistung des Modells beeinträchtigen kann, wenn die zusätzlichen Daten nicht gut mit der vorliegenden Aufgabe übereinstimmen. Unsere Ergebnisse verdeutlichen, dass Qualität beim Vortraining für die Vorhersage atomarer Eigenschaften oft der Quantität überlegen ist.
English
This paper challenges the recent paradigm in atomic property prediction that
links progress to growing dataset sizes and computational resources. We show
that pretraining on a carefully selected, task-relevant dataset can match or
even surpass large-scale pretraining, while using as little as 1/24th of the
computational cost. We introduce the Chemical Similarity Index (CSI), a novel
metric inspired by computer vision's Fr\'echet Inception Distance, for
molecular graphs which quantifies the alignment between upstream pretraining
datasets and downstream tasks. By selecting the most relevant dataset with
minimal CSI distance, we show that models pretrained on a smaller, focused
dataset consistently outperform those pretrained on massive, mixed datasets
such as JMP, even when those larger datasets include the relevant dataset.
Counterintuitively, we also find that indiscriminately adding more data can
degrade model performance when the additional data poorly aligns with the task
at hand. Our findings highlight that quality often outperforms quantity in
pretraining for atomic property prediction.Summary
AI-Generated Summary