La BERTologia della Predizione delle Proprietà Molecolari
BERTology of Molecular Property Prediction
March 13, 2026
Autori: Mohammad Mostafanejad, Paul Saxe, T. Daniel Crawford
cs.AI
Abstract
I modelli linguistici chimici (CLM) sono emersi come promettenti concorrenti dei popolari modelli di apprendimento automatico classici per i compiti di predizione delle proprietà molecolari (MPP). Tuttavia, un numero crescente di studi ha riportato risultati inconsistenti e contraddittori riguardo alle prestazioni dei CLM su vari benchmark MPP. In questo studio, conduciamo e analizziamo centinaia di esperimenti meticolosamente controllati per investigare sistematicamente gli effetti di vari fattori, come la dimensione del dataset, la dimensione del modello e la standardizzazione, sulle prestazioni dei CLM in fase di pre-addestramento e fine-tuning per l'MPP. In assenza di leggi di scala ben consolidate per modelli linguistici mascherati con solo encoder, il nostro obiettivo è fornire evidenze numeriche complete e una comprensione più profonda dei meccanismi sottostanti che influenzano le prestazioni dei CLM per i compiti MPP, alcuni dei quali sembrano essere completamente trascurati in letteratura.
English
Chemical language models (CLMs) have emerged as promising competitors to popular classical machine learning models for molecular property prediction (MPP) tasks. However, an increasing number of studies have reported inconsistent and contradictory results for the performance of CLMs across various MPP benchmark tasks. In this study, we conduct and analyze hundreds of meticulously controlled experiments to systematically investigate the effects of various factors, such as dataset size, model size, and standardization, on the pre-training and fine-tuning performance of CLMs for MPP. In the absence of well-established scaling laws for encoder-only masked language models, our aim is to provide comprehensive numerical evidence and a deeper understanding of the underlying mechanisms affecting the performance of CLMs for MPP tasks, some of which appear to be entirely overlooked in the literature.