Biomed-Enriched: 大規模言語モデルを用いて事前学習と希少・隠れた情報の抽出を強化した生体医科学データセット
Biomed-Enriched: A Biomedical Dataset Enriched with LLMs for Pretraining and Extracting Rare and Hidden Content
June 25, 2025
著者: Rian Touchent, Nathan Godey, Eric de la Clergerie
cs.AI
要旨
Biomed-Enrichedを紹介する。これは、PubMedから2段階のアノテーションプロセスを経て構築された生物医学テキストデータセットである。第1段階では、大規模言語モデルがPubMedの科学記事から40万段落をアノテーションし、そのタイプ(レビュー、研究、臨床症例、その他)、ドメイン(臨床、生物医学、その他)、および教育品質スコアを割り当てる。教育品質スコア(1から5で評価)は、大学レベルの学習において段落がどれほど有用であるかを推定する。これらのアノテーションは、その後、小規模言語モデルのファインチューニングに使用され、PMC-OAコーパス全体にラベルを伝播させる。結果として得られるメタデータにより、商用利用ライセンスを持つ記事から45万以上の高品質な臨床症例段落を含む200万の臨床症例段落を抽出し、品質フィルタリングとドメインアップサンプリングを通じて複数のバリエーションを構築することが可能となる。臨床テキストは通常、プライバシー制約のためアクセスが困難であり、病院記録は公開できない。したがって、本データセットは、PubMedから得られた大規模でオープンに利用可能な臨床症例の代替コレクションを提供し、生物医学および臨床NLPにとって貴重なリソースとなる。OLMo2を用いた予備的な継続的プレトレーニング実験では、これらのキュレーションされたサブセットがターゲットを絞った改善を可能にし、臨床アップサンプリングによりMMLU ProfMedのパフォーマンスが約5%向上し、教育品質フィルタリングによりMedQAとMedMCQAが約1%向上することが示された。これらの技術を組み合わせることで、より速い収束が達成され、トレーニングトークンの3分の1で同じパフォーマンスに到達し、より効率的で効果的な生物医学プレトレーニング戦略の可能性を示唆している。
English
We introduce Biomed-Enriched, a biomedical text dataset constructed from
PubMed via a two-stage annotation process. In the first stage, a large language
model annotates 400K paragraphs from PubMed scientific articles, assigning
scores for their type (review, study, clinical case, other), domain (clinical,
biomedical, other), and educational quality. The educational quality score
(rated 1 to 5) estimates how useful a paragraph is for college-level learning.
These annotations are then used to fine-tune a small language model, which
propagates the labels across the full PMC-OA corpus. The resulting metadata
allows us to extract refined subsets, including 2M clinical case paragraphs
with over 450K high-quality ones from articles with commercial-use licenses,
and to construct several variants via quality filtering and domain upsampling.
Clinical text is typically difficult to access due to privacy constraints, as
hospital records cannot be publicly shared. Hence, our dataset provides an
alternative large-scale, openly available collection of clinical cases from
PubMed, making it a valuable resource for biomedical and clinical NLP.
Preliminary continual-pretraining experiments with OLMo2 suggest these curated
subsets enable targeted improvements, with clinical upsampling boosting
performance by ~5% on MMLU ProfMed and educational quality filtering improving
MedQA and MedMCQA by ~1%. Combinations of these techniques led to faster
convergence, reaching same performance with a third of training tokens,
indicating potential for more efficient and effective biomedical pretraining
strategies.