BERTologie de la Prédiction des Propriétés Moléculaires
BERTology of Molecular Property Prediction
March 13, 2026
Auteurs: Mohammad Mostafanejad, Paul Saxe, T. Daniel Crawford
cs.AI
Résumé
Les modèles de langage chimique (CLM) sont apparus comme des concurrents prometteurs face aux modèles d'apprentissage automatique classiques populaires pour les tâches de prédiction de propriétés moléculaires (MPP). Cependant, un nombre croissant d'études ont rapporté des résultats incohérents et contradictoires concernant les performances des CLM sur diverses tâches de référence en MPP. Dans cette étude, nous menons et analysons des centaines d'expériences minutieusement contrôlées pour étudier systématiquement les effets de divers facteurs, tels que la taille des jeux de données, la taille des modèles et la standardisation, sur les performances en pré-entraînement et en affinage des CLM pour la MPP. En l'absence de lois d'échelle bien établies pour les modèles de langage à encodeur unique masqué, notre objectif est de fournir des preuves numériques complètes et une compréhension plus approfondie des mécanismes sous-jacents affectant les performances des CLM pour les tâches de MPP, dont certains semblent être totalement négligés dans la littérature.
English
Chemical language models (CLMs) have emerged as promising competitors to popular classical machine learning models for molecular property prediction (MPP) tasks. However, an increasing number of studies have reported inconsistent and contradictory results for the performance of CLMs across various MPP benchmark tasks. In this study, we conduct and analyze hundreds of meticulously controlled experiments to systematically investigate the effects of various factors, such as dataset size, model size, and standardization, on the pre-training and fine-tuning performance of CLMs for MPP. In the absence of well-established scaling laws for encoder-only masked language models, our aim is to provide comprehensive numerical evidence and a deeper understanding of the underlying mechanisms affecting the performance of CLMs for MPP tasks, some of which appear to be entirely overlooked in the literature.