Verso un Pretraining Efficiente in Termini di Dati per la Previsione di Proprietà Atomiche
Towards Data-Efficient Pretraining for Atomic Property Prediction
February 16, 2025
Autori: Yasir Ghunaim, Hasan Abed Al Kader Hammoud, Bernard Ghanem
cs.AI
Abstract
Questo articolo mette in discussione il recente paradigma nella previsione delle proprietà atomiche che collega il progresso all'aumento delle dimensioni dei dataset e delle risorse computazionali. Dimostriamo che il pretraining su un dataset accuratamente selezionato e pertinente al compito può eguagliare o addirittura superare il pretraining su larga scala, utilizzando fino a 1/24 del costo computazionale. Introduciamo il Chemical Similarity Index (CSI), una nuova metrica ispirata alla Fréchet Inception Distance della computer vision, per i grafi molecolari, che quantifica l'allineamento tra i dataset di pretraining upstream e i compiti downstream. Selezionando il dataset più pertinente con la minima distanza CSI, mostriamo che i modelli sottoposti a pretraining su un dataset più piccolo e focalizzato superano costantemente quelli pretrainati su dataset massicci e misti come JMP, anche quando questi ultimi includono il dataset pertinente. Controintuitivamente, scopriamo anche che l'aggiunta indiscriminata di più dati può degradare le prestazioni del modello quando i dati aggiuntivi sono poco allineati con il compito in questione. I nostri risultati evidenziano che, nel pretraining per la previsione delle proprietà atomiche, la qualità spesso supera la quantità.
English
This paper challenges the recent paradigm in atomic property prediction that
links progress to growing dataset sizes and computational resources. We show
that pretraining on a carefully selected, task-relevant dataset can match or
even surpass large-scale pretraining, while using as little as 1/24th of the
computational cost. We introduce the Chemical Similarity Index (CSI), a novel
metric inspired by computer vision's Fr\'echet Inception Distance, for
molecular graphs which quantifies the alignment between upstream pretraining
datasets and downstream tasks. By selecting the most relevant dataset with
minimal CSI distance, we show that models pretrained on a smaller, focused
dataset consistently outperform those pretrained on massive, mixed datasets
such as JMP, even when those larger datasets include the relevant dataset.
Counterintuitively, we also find that indiscriminately adding more data can
degrade model performance when the additional data poorly aligns with the task
at hand. Our findings highlight that quality often outperforms quantity in
pretraining for atomic property prediction.Summary
AI-Generated Summary