ChatPaper.aiChatPaper

Naar data-efficiënte voorafgaande training voor het voorspellen van atomaire eigenschappen

Towards Data-Efficient Pretraining for Atomic Property Prediction

February 16, 2025
Auteurs: Yasir Ghunaim, Hasan Abed Al Kader Hammoud, Bernard Ghanem
cs.AI

Samenvatting

Dit artikel daagt het recente paradigma in de voorspelling van atomaire eigenschappen uit, dat vooruitgang koppelt aan groeiende datasetgroottes en rekenbronnen. We tonen aan dat vooraf trainen op een zorgvuldig geselecteerde, taakrelevante dataset de prestaties van grootschalige vooraf training kan evenaren of zelfs overtreffen, terwijl slechts 1/24e van de rekenkosten wordt gebruikt. We introduceren de Chemical Similarity Index (CSI), een nieuwe metriek geïnspireerd op de Fréchet Inception Distance uit de computer vision, voor moleculaire grafieken die de afstemming tussen upstream vooraf trainingsdatasets en downstream taken kwantificeert. Door de meest relevante dataset met minimale CSI-afstand te selecteren, laten we zien dat modellen die vooraf zijn getraind op een kleinere, gerichte dataset consistent beter presteren dan die getraind op enorme, gemengde datasets zoals JMP, zelfs wanneer die grotere datasets de relevante dataset omvatten. Contra-intuïtief vinden we ook dat het ongericht toevoegen van meer data de modelprestaties kan verslechteren wanneer de extra data slecht aansluit bij de taak. Onze bevindingen benadrukken dat kwaliteit vaak superieur is aan kwantiteit bij vooraf trainen voor de voorspelling van atomaire eigenschappen.
English
This paper challenges the recent paradigm in atomic property prediction that links progress to growing dataset sizes and computational resources. We show that pretraining on a carefully selected, task-relevant dataset can match or even surpass large-scale pretraining, while using as little as 1/24th of the computational cost. We introduce the Chemical Similarity Index (CSI), a novel metric inspired by computer vision's Fr\'echet Inception Distance, for molecular graphs which quantifies the alignment between upstream pretraining datasets and downstream tasks. By selecting the most relevant dataset with minimal CSI distance, we show that models pretrained on a smaller, focused dataset consistently outperform those pretrained on massive, mixed datasets such as JMP, even when those larger datasets include the relevant dataset. Counterintuitively, we also find that indiscriminately adding more data can degrade model performance when the additional data poorly aligns with the task at hand. Our findings highlight that quality often outperforms quantity in pretraining for atomic property prediction.

Summary

AI-Generated Summary

PDF33February 18, 2025