К эффективному предобучению с ограниченным объемом данных для предсказания атомных свойств

Аннотация

В данной статье подвергается сомнению недавно сложившаяся парадигма в прогнозировании атомных свойств, которая связывает прогресс с увеличением размеров наборов данных и вычислительных ресурсов. Мы демонстрируем, что предварительное обучение на тщательно отобранном, релевантном для задачи наборе данных может соответствовать или даже превосходить крупномасштабное предварительное обучение, при этом используя лишь 1/24 вычислительных затрат. Мы представляем Индекс Химического Сходства (Chemical Similarity Index, CSI) — новый метрический подход, вдохновленный расстоянием Фреше в компьютерном зрении, который количественно оценивает соответствие между наборами данных для предварительного обучения и целевыми задачами для молекулярных графов. Выбирая наиболее релевантный набор данных с минимальным расстоянием CSI, мы показываем, что модели, предварительно обученные на меньшем, целенаправленном наборе данных, стабильно превосходят модели, обученные на крупных, смешанных наборах данных, таких как JMP, даже если эти большие наборы включают релевантные данные. Контринтуитивно, мы также обнаруживаем, что бездумное добавление большего объема данных может ухудшить производительность модели, если дополнительные данные плохо соответствуют поставленной задаче. Наши результаты подчеркивают, что качество часто превосходит количество при предварительном обучении для прогнозирования атомных свойств.

English

This paper challenges the recent paradigm in atomic property prediction that links progress to growing dataset sizes and computational resources. We show that pretraining on a carefully selected, task-relevant dataset can match or even surpass large-scale pretraining, while using as little as 1/24th of the computational cost. We introduce the Chemical Similarity Index (CSI), a novel metric inspired by computer vision's Fr\'echet Inception Distance, for molecular graphs which quantifies the alignment between upstream pretraining datasets and downstream tasks. By selecting the most relevant dataset with minimal CSI distance, we show that models pretrained on a smaller, focused dataset consistently outperform those pretrained on massive, mixed datasets such as JMP, even when those larger datasets include the relevant dataset. Counterintuitively, we also find that indiscriminately adding more data can degrade model performance when the additional data poorly aligns with the task at hand. Our findings highlight that quality often outperforms quantity in pretraining for atomic property prediction.

К эффективному предобучению с ограниченным объемом данных для предсказания атомных свойств

Towards Data-Efficient Pretraining for Atomic Property Prediction

Аннотация

Support