Hoe post-training biologische redeneermodellen vormt

Samenvatting

Wetenschappelijke redeneermodellen voor de biologie combineren taalmodellen met fundamentmodellen die getraind zijn op multimodale biologische gegevens, waaronder DNA, RNA en eiwitten. Deze modellen worden gebouwd via post-training, maar hoe elke fase redeneren en generalisatie vormgeeft, wordt nog slecht begrepen. We bestuderen wanneer post-training prestaties verbetert en wanneer het overspecialisatie induceert. Over genomica, transcriptomica en eiwitten heen trainen en evalueren we meer dan 100 biologische redeneermodellen onder gecontroleerde variatie in backbone, voortgezet pre-trainen (CPT), gesuperviseerd finetunen (SFT) en versterkingsleren (RL), waarbij we zowel binnen-domein (ID) als buiten-domein (OOD) prestaties meten. We vinden dat elke post-trainingsfase het generalisatievermogen op een andere manier hervormt, in plaats van uniforme verbeteringen bij te dragen. CPT verbetert de downstreamprestaties door modellen af te stemmen op biologische taal. SFT verhoogt consequent de ID-prestaties, maar zorgt ervoor dat OOD-prestaties vroeg pieken en afnemen naarmate modellen zich aanpassen aan de trainingsdistributie. RL, toegepast op sterke SFT-checkpoints met afgestemde beloningen, verbetert OOD-prestaties en herstelt gedeeltelijk het generalisatievermogen. Deze resultaten tonen aan dat biologisch redeneren niet monotoon verbetert met extra supervisie of rekenkracht. In plaats daarvan zijn prestaties afhankelijk van hoe trainingsfasen worden samengesteld. Onder vaste post-trainingsbudgetten komt de sterkste ID-OOD-afweging voort uit korte SFT, grotere RL-toewijzingen en asymmetrische aanpassingscapaciteit over de fasen heen.

English

Scientific reasoning models for biology combine language models with foundation models trained on multimodal biological data, including DNA, RNA, and proteins. These models are built through post-training, yet how each stage shapes reasoning and generalization remains poorly understood. We study when post-training improves performance and when it induces over-specialization. Across genomics, transcriptomics, and proteins, we train and evaluate more than 100 biological reasoning models under controlled variation in backbone, continued pre-training (CPT), supervised fine-tuning (SFT), and reinforcement learning (RL), measuring both in-domain (ID) and out-of-domain (OOD) performance. We find that each post-training stage reshapes generalization in a distinct way rather than contributing uniform gains. CPT improves downstream performance by aligning models with biological language. SFT consistently increases ID performance but causes OOD performance to peak early and decline as models fit the training distribution. RL, when applied to strong SFT checkpoints with aligned rewards, improves OOD performance and partially recovers generalization. These results show that biological reasoning does not improve monotonically with additional supervision or compute. Instead, performance depends on how training stages are composed. Under fixed post-training budgets, the strongest ID-OOD trade-off comes from brief SFT, larger RL allocations, and asymmetric adaptation capacity across stages.