BERTologie der Vorhersage molekularer Eigenschaften
BERTology of Molecular Property Prediction
March 13, 2026
Autoren: Mohammad Mostafanejad, Paul Saxe, T. Daniel Crawford
cs.AI
Zusammenfassung
Chemische Sprachmodelle (CLMs) haben sich als vielversprechende Konkurrenten zu populären klassischen Machine-Learning-Modellen für Aufgaben der molekularen Eigenschaftsvorhersage (MPP) erwiesen. Allerdings berichten zunehmend mehr Studien über inkonsistente und widersprüchliche Ergebnisse bezüglich der Leistung von CLMs in verschiedenen MPP-Benchmark-Aufgaben. In dieser Studie führen wir Hunderte sorgfältig kontrollierter Experimente durch und analysieren diese, um systematisch die Auswirkungen verschiedener Faktoren – wie Datensatzgröße, Modellgröße und Standardisierung – auf das Pre-Training und die Fine-Tuning-Leistung von CLMs für MPP zu untersuchen. In Ermangelung etablierter Skalierungsgesetze für encoder-only Masked Language Models zielen wir darauf ab, umfassende numerische Belege und ein tieferes Verständnis der zugrundeliegenden Mechanismen zu liefern, die die Leistung von CLMs bei MPP-Aufgaben beeinflussen, von denen einige in der Literatur offenbar völlig übersehen werden.
English
Chemical language models (CLMs) have emerged as promising competitors to popular classical machine learning models for molecular property prediction (MPP) tasks. However, an increasing number of studies have reported inconsistent and contradictory results for the performance of CLMs across various MPP benchmark tasks. In this study, we conduct and analyze hundreds of meticulously controlled experiments to systematically investigate the effects of various factors, such as dataset size, model size, and standardization, on the pre-training and fine-tuning performance of CLMs for MPP. In the absence of well-established scaling laws for encoder-only masked language models, our aim is to provide comprehensive numerical evidence and a deeper understanding of the underlying mechanisms affecting the performance of CLMs for MPP tasks, some of which appear to be entirely overlooked in the literature.