К эффективному предобучению с ограниченным объемом данных для предсказания атомных свойств
Towards Data-Efficient Pretraining for Atomic Property Prediction
February 16, 2025
Авторы: Yasir Ghunaim, Hasan Abed Al Kader Hammoud, Bernard Ghanem
cs.AI
Аннотация
В данной статье подвергается сомнению недавно сложившаяся парадигма в прогнозировании атомных свойств, которая связывает прогресс с увеличением размеров наборов данных и вычислительных ресурсов. Мы демонстрируем, что предварительное обучение на тщательно отобранном, релевантном для задачи наборе данных может соответствовать или даже превосходить крупномасштабное предварительное обучение, при этом используя лишь 1/24 вычислительных затрат. Мы представляем Индекс Химического Сходства (Chemical Similarity Index, CSI) — новый метрический подход, вдохновленный расстоянием Фреше в компьютерном зрении, который количественно оценивает соответствие между наборами данных для предварительного обучения и целевыми задачами для молекулярных графов. Выбирая наиболее релевантный набор данных с минимальным расстоянием CSI, мы показываем, что модели, предварительно обученные на меньшем, целенаправленном наборе данных, стабильно превосходят модели, обученные на крупных, смешанных наборах данных, таких как JMP, даже если эти большие наборы включают релевантные данные. Контринтуитивно, мы также обнаруживаем, что бездумное добавление большего объема данных может ухудшить производительность модели, если дополнительные данные плохо соответствуют поставленной задаче. Наши результаты подчеркивают, что качество часто превосходит количество при предварительном обучении для прогнозирования атомных свойств.
English
This paper challenges the recent paradigm in atomic property prediction that
links progress to growing dataset sizes and computational resources. We show
that pretraining on a carefully selected, task-relevant dataset can match or
even surpass large-scale pretraining, while using as little as 1/24th of the
computational cost. We introduce the Chemical Similarity Index (CSI), a novel
metric inspired by computer vision's Fr\'echet Inception Distance, for
molecular graphs which quantifies the alignment between upstream pretraining
datasets and downstream tasks. By selecting the most relevant dataset with
minimal CSI distance, we show that models pretrained on a smaller, focused
dataset consistently outperform those pretrained on massive, mixed datasets
such as JMP, even when those larger datasets include the relevant dataset.
Counterintuitively, we also find that indiscriminately adding more data can
degrade model performance when the additional data poorly aligns with the task
at hand. Our findings highlight that quality often outperforms quantity in
pretraining for atomic property prediction.Summary
AI-Generated Summary