Richtung dateneffizientes Vortraining für die Vorhersage atomarer Eigenschaften

papers.abstract

Dieses Paper stellt das kürzlich aufgekommene Paradigma in der Vorhersage atomarer Eigenschaften in Frage, das Fortschritte mit wachsenden Datensatzgrößen und Rechenressourcen verknüpft. Wir zeigen, dass ein Vortraining auf einem sorgfältig ausgewählten, aufgabenrelevanten Datensatz mit nur 1/24 der Rechenkosten mit großen Vortrainingsansätzen mithalten oder sie sogar übertreffen kann. Wir führen den Chemischen Ähnlichkeitsindex (CSI) ein, eine neue Metrik, inspiriert von der Fréchet-Inception-Distanz der Computer Vision, für Molekülgraphen, die die Übereinstimmung zwischen vorgelagerten Vortrainingsdatensätzen und nachgelagerten Aufgaben quantifiziert. Durch die Auswahl des relevantesten Datensatzes mit minimalem CSI-Abstand zeigen wir, dass Modelle, die auf einem kleineren, fokussierten Datensatz vortrainiert wurden, konsistent besser abschneiden als solche, die auf massiven, gemischten Datensätzen wie JMP vortrainiert wurden, selbst wenn diese größeren Datensätze den relevanten Datensatz enthalten. Gegenintuitiv finden wir auch heraus, dass eine unüberlegte Hinzufügung von mehr Daten die Leistung des Modells beeinträchtigen kann, wenn die zusätzlichen Daten nicht gut mit der vorliegenden Aufgabe übereinstimmen. Unsere Ergebnisse verdeutlichen, dass Qualität beim Vortraining für die Vorhersage atomarer Eigenschaften oft der Quantität überlegen ist.

English

This paper challenges the recent paradigm in atomic property prediction that links progress to growing dataset sizes and computational resources. We show that pretraining on a carefully selected, task-relevant dataset can match or even surpass large-scale pretraining, while using as little as 1/24th of the computational cost. We introduce the Chemical Similarity Index (CSI), a novel metric inspired by computer vision's Fr\'echet Inception Distance, for molecular graphs which quantifies the alignment between upstream pretraining datasets and downstream tasks. By selecting the most relevant dataset with minimal CSI distance, we show that models pretrained on a smaller, focused dataset consistently outperform those pretrained on massive, mixed datasets such as JMP, even when those larger datasets include the relevant dataset. Counterintuitively, we also find that indiscriminately adding more data can degrade model performance when the additional data poorly aligns with the task at hand. Our findings highlight that quality often outperforms quantity in pretraining for atomic property prediction.

Richtung dateneffizientes Vortraining für die Vorhersage atomarer Eigenschaften

Towards Data-Efficient Pretraining for Atomic Property Prediction

papers.abstract

Support