BERTologie van Moleculaire Eigenschapvoorspelling

Samenvatting

Chemische taalmodelen (CLM's) zijn naar voren gekomen als veelbelovende concurrenten van populaire klassieke machine learning-modellen voor taken op het gebied van moleculaire eigenschapvoorspelling (MPP). Een groeiend aantal studies rapporteert echter inconsistente en tegenstrijdige resultaten voor de prestaties van CLM's bij diverse MPP-benchmarktaken. In deze studie voeren en analyseren wij honderden nauwgezet gecontroleerde experimenten uit om de effecten van verschillende factoren, zoals datasetgrootte, modelgrootte en standaardisatie, op de pre-training en fine-tuning prestaties van CLM's voor MPP systematisch te onderzoeken. In afwezigheid van goed vastgestelde schaalwetten voor encoder-only gemaskeerde taalmodelen, is ons doel om uitgebreid numeriek bewijs en een dieper inzicht te verschaffen in de onderliggende mechanismen die de prestaties van CLM's voor MPP-taken beïnvloeden, waarvan sommige in de literatuur geheel over het hoofd lijken te worden gezien.

English

Chemical language models (CLMs) have emerged as promising competitors to popular classical machine learning models for molecular property prediction (MPP) tasks. However, an increasing number of studies have reported inconsistent and contradictory results for the performance of CLMs across various MPP benchmark tasks. In this study, we conduct and analyze hundreds of meticulously controlled experiments to systematically investigate the effects of various factors, such as dataset size, model size, and standardization, on the pre-training and fine-tuning performance of CLMs for MPP. In the absence of well-established scaling laws for encoder-only masked language models, our aim is to provide comprehensive numerical evidence and a deeper understanding of the underlying mechanisms affecting the performance of CLMs for MPP tasks, some of which appear to be entirely overlooked in the literature.

BERTologie van Moleculaire Eigenschapvoorspelling

BERTology of Molecular Property Prediction

Samenvatting

Support