Как постобучение формирует модели биологического рассуждения

Аннотация

Модели научного обоснования для биологии объединяют языковые модели с фундаментальными моделями, обученными на мультимодальных биологических данных, включая ДНК, РНК и белки. Эти модели строятся с помощью пост-обучения, однако то, как каждый этап формирует способность к рассуждению и обобщению, остается плохо изученным. Мы исследуем, когда пост-обучение улучшает производительность, а когда приводит к чрезмерной специализации. На данных геномики, транскриптомики и белков мы обучаем и оцениваем более 100 моделей биологического обоснования при контролируемом варьировании базовой архитектуры, продолженного предварительного обучения (CPT), тонкой настройки с учителем (SFT) и обучения с подкреплением (RL), измеряя как внутридоменную (ID), так и внедоменную (OOD) производительность. Мы обнаружили, что каждый этап пост-обучения изменяет обобщение уникальным образом, а не обеспечивает равномерные улучшения. CPT улучшает итоговую производительность за счет согласования моделей с биологическим языком. SFT последовательно повышает ID-производительность, но приводит к тому, что OOD-производительность достигает пика на ранних этапах и затем снижается по мере подстройки модели под обучающее распределение. RL, применяемый к сильным SFT-контрольным точкам с согласованными вознаграждениями, улучшает OOD-производительность и частично восстанавливает обобщение. Эти результаты показывают, что способность к биологическому обоснованию не улучшается монотонно с увеличением объема обучения с учителем или вычислительных ресурсов. Вместо этого производительность зависит от того, как скомпонованы этапы обучения. При фиксированных бюджетах пост-обучения наилучший компромисс между ID и OOD достигается за счет кратковременного SFT, больших вложений в RL и асимметричной способности к адаптации на разных этапах.

English

Scientific reasoning models for biology combine language models with foundation models trained on multimodal biological data, including DNA, RNA, and proteins. These models are built through post-training, yet how each stage shapes reasoning and generalization remains poorly understood. We study when post-training improves performance and when it induces over-specialization. Across genomics, transcriptomics, and proteins, we train and evaluate more than 100 biological reasoning models under controlled variation in backbone, continued pre-training (CPT), supervised fine-tuning (SFT), and reinforcement learning (RL), measuring both in-domain (ID) and out-of-domain (OOD) performance. We find that each post-training stage reshapes generalization in a distinct way rather than contributing uniform gains. CPT improves downstream performance by aligning models with biological language. SFT consistently increases ID performance but causes OOD performance to peak early and decline as models fit the training distribution. RL, when applied to strong SFT checkpoints with aligned rewards, improves OOD performance and partially recovers generalization. These results show that biological reasoning does not improve monotonically with additional supervision or compute. Instead, performance depends on how training stages are composed. Under fixed post-training budgets, the strongest ID-OOD trade-off comes from brief SFT, larger RL allocations, and asymmetric adaptation capacity across stages.