ChatPaper.aiChatPaper

Vers une préformation efficace des données pour la prédiction des propriétés atomiques

Towards Data-Efficient Pretraining for Atomic Property Prediction

February 16, 2025
Auteurs: Yasir Ghunaim, Hasan Abed Al Kader Hammoud, Bernard Ghanem
cs.AI

Résumé

Cet article remet en question le paradigme récent dans la prédiction des propriétés atomiques, qui lie les progrès à l'augmentation de la taille des ensembles de données et des ressources informatiques. Nous montrons que la préformation sur un ensemble de données soigneusement sélectionné et pertinent pour la tâche peut égaler, voire surpasser, la préformation à grande échelle, tout en utilisant seulement 1/24e du coût informatique. Nous introduisons l'Indice de Similarité Chimique (ISC), une nouvelle métrique inspirée de la Distance d'Inception de Fréchet de la vision par ordinateur, pour les graphes moléculaires qui quantifie l'alignement entre les ensembles de données de préformation amont et les tâches aval. En sélectionnant l'ensemble de données le plus pertinent avec une distance ISC minimale, nous montrons que les modèles préformés sur un ensemble de données plus petit et ciblé surpassent systématiquement ceux préformés sur des ensembles de données massifs et mixtes tels que JMP, même lorsque ces ensembles de données plus grands incluent l'ensemble de données pertinent. Contre-intuitivement, nous constatons également qu'ajouter plus de données de manière indiscriminée peut dégrader les performances du modèle lorsque les données supplémentaires ne s'alignent pas bien avec la tâche en cours. Nos résultats soulignent que la qualité dépasse souvent la quantité dans la préformation pour la prédiction des propriétés atomiques.
English
This paper challenges the recent paradigm in atomic property prediction that links progress to growing dataset sizes and computational resources. We show that pretraining on a carefully selected, task-relevant dataset can match or even surpass large-scale pretraining, while using as little as 1/24th of the computational cost. We introduce the Chemical Similarity Index (CSI), a novel metric inspired by computer vision's Fr\'echet Inception Distance, for molecular graphs which quantifies the alignment between upstream pretraining datasets and downstream tasks. By selecting the most relevant dataset with minimal CSI distance, we show that models pretrained on a smaller, focused dataset consistently outperform those pretrained on massive, mixed datasets such as JMP, even when those larger datasets include the relevant dataset. Counterintuitively, we also find that indiscriminately adding more data can degrade model performance when the additional data poorly aligns with the task at hand. Our findings highlight that quality often outperforms quantity in pretraining for atomic property prediction.

Summary

AI-Generated Summary

PDF33February 18, 2025