바이오메드-엔리치드: 희귀 및 숨겨진 콘텐츠 사전 학습 및 추출을 위한 LLM으로 강화된 생의학 데이터셋
Biomed-Enriched: A Biomedical Dataset Enriched with LLMs for Pretraining and Extracting Rare and Hidden Content
June 25, 2025
저자: Rian Touchent, Nathan Godey, Eric de la Clergerie
cs.AI
초록
우리는 PubMed에서 두 단계의 주석 프로세스를 통해 구축된 생의학 텍스트 데이터셋인 Biomed-Enriched를 소개한다. 첫 번째 단계에서는 대형 언어 모델이 PubMed 과학 논문에서 400,000개의 단락을 주석 처리하며, 이 단락들의 유형(리뷰, 연구, 임상 사례, 기타), 도메인(임상, 생의학, 기타), 그리고 교육적 품질에 대한 점수를 부여한다. 교육적 품질 점수(1에서 5점으로 평가)는 해당 단락이 대학 수준의 학습에 얼마나 유용한지를 추정한다. 이러한 주석은 소형 언어 모델을 미세 조정하는 데 사용되며, 이 모델은 PMC-OA 코퍼스 전체에 걸쳐 레이블을 전파한다. 결과적으로 생성된 메타데이터를 통해 상업적 사용이 허가된 논문에서 450,000개 이상의 고품질 단락을 포함한 200만 개의 임상 사례 단락을 포함한 정제된 하위 집합을 추출하고, 품질 필터링 및 도메인 업샘플링을 통해 여러 변형을 구성할 수 있다. 임상 텍스트는 일반적으로 병원 기록이 공개적으로 공유될 수 없기 때문에 프라이버시 제약으로 인해 접근하기 어렵다. 따라서 우리의 데이터셋은 PubMed에서 공개적으로 이용 가능한 대규모 임상 사례 컬렉션을 제공함으로써 생의학 및 임상 자연어 처리(NLP)에 있어 귀중한 자원이 된다. OLMo2를 사용한 예비적인 지속적 사전 학습 실험은 이러한 정제된 하위 집합이 목표 개선을 가능하게 하며, 임상 업샘플링이 MMLU ProfMed에서 약 5%의 성능 향상을, 교육적 품질 필터링이 MedQA와 MedMCQA에서 약 1%의 성능 향상을 가져온다는 것을 보여준다. 이러한 기술들의 조합은 더 빠른 수렴을 이끌어, 동일한 성능을 훈련 토큰의 1/3로 달성함으로써 더 효율적이고 효과적인 생의학 사전 학습 전략의 잠재력을 시사한다.
English
We introduce Biomed-Enriched, a biomedical text dataset constructed from
PubMed via a two-stage annotation process. In the first stage, a large language
model annotates 400K paragraphs from PubMed scientific articles, assigning
scores for their type (review, study, clinical case, other), domain (clinical,
biomedical, other), and educational quality. The educational quality score
(rated 1 to 5) estimates how useful a paragraph is for college-level learning.
These annotations are then used to fine-tune a small language model, which
propagates the labels across the full PMC-OA corpus. The resulting metadata
allows us to extract refined subsets, including 2M clinical case paragraphs
with over 450K high-quality ones from articles with commercial-use licenses,
and to construct several variants via quality filtering and domain upsampling.
Clinical text is typically difficult to access due to privacy constraints, as
hospital records cannot be publicly shared. Hence, our dataset provides an
alternative large-scale, openly available collection of clinical cases from
PubMed, making it a valuable resource for biomedical and clinical NLP.
Preliminary continual-pretraining experiments with OLMo2 suggest these curated
subsets enable targeted improvements, with clinical upsampling boosting
performance by ~5% on MMLU ProfMed and educational quality filtering improving
MedQA and MedMCQA by ~1%. Combinations of these techniques led to faster
convergence, reaching same performance with a third of training tokens,
indicating potential for more efficient and effective biomedical pretraining
strategies.