Verso un Pretraining Efficiente in Termini di Dati per la Previsione di Proprietà Atomiche

Abstract

Questo articolo mette in discussione il recente paradigma nella previsione delle proprietà atomiche che collega il progresso all'aumento delle dimensioni dei dataset e delle risorse computazionali. Dimostriamo che il pretraining su un dataset accuratamente selezionato e pertinente al compito può eguagliare o addirittura superare il pretraining su larga scala, utilizzando fino a 1/24 del costo computazionale. Introduciamo il Chemical Similarity Index (CSI), una nuova metrica ispirata alla Fréchet Inception Distance della computer vision, per i grafi molecolari, che quantifica l'allineamento tra i dataset di pretraining upstream e i compiti downstream. Selezionando il dataset più pertinente con la minima distanza CSI, mostriamo che i modelli sottoposti a pretraining su un dataset più piccolo e focalizzato superano costantemente quelli pretrainati su dataset massicci e misti come JMP, anche quando questi ultimi includono il dataset pertinente. Controintuitivamente, scopriamo anche che l'aggiunta indiscriminata di più dati può degradare le prestazioni del modello quando i dati aggiuntivi sono poco allineati con il compito in questione. I nostri risultati evidenziano che, nel pretraining per la previsione delle proprietà atomiche, la qualità spesso supera la quantità.

English

This paper challenges the recent paradigm in atomic property prediction that links progress to growing dataset sizes and computational resources. We show that pretraining on a carefully selected, task-relevant dataset can match or even surpass large-scale pretraining, while using as little as 1/24th of the computational cost. We introduce the Chemical Similarity Index (CSI), a novel metric inspired by computer vision's Fr\'echet Inception Distance, for molecular graphs which quantifies the alignment between upstream pretraining datasets and downstream tasks. By selecting the most relevant dataset with minimal CSI distance, we show that models pretrained on a smaller, focused dataset consistently outperform those pretrained on massive, mixed datasets such as JMP, even when those larger datasets include the relevant dataset. Counterintuitively, we also find that indiscriminately adding more data can degrade model performance when the additional data poorly aligns with the task at hand. Our findings highlight that quality often outperforms quantity in pretraining for atomic property prediction.

Verso un Pretraining Efficiente in Termini di Dati per la Previsione di Proprietà Atomiche

Towards Data-Efficient Pretraining for Atomic Property Prediction

Abstract

Support