SciLitLLM: 科学文献理解のためのLLMの適応方法SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding
科学文献の理解は、特定の情報を抽出し洞察を得るために極めて重要であり、科学的発見を大幅に推進します。大規模言語モデル(LLM)の顕著な成功にもかかわらず、科学文献の理解においては、主に科学的知識の不足と専門的な科学的タスクへの不慣れさによる課題があります。 科学文献の理解に特化したLLMを開発するために、私たちは継続的事前学習(CPT)と監督されたファインチューニング(SFT)を統合するハイブリッド戦略を提案します。これにより、科学的ドメイン知識を同時に注入し、特定のドメインタスクの指示に従う能力を向上させます。このプロセスでは、2つの主要な課題を特定しています。1つは高品質なCPTコーパスの構築、もう1つは多様なSFT指示の生成です。これらの課題に対処するために、PDFテキストの抽出、コンテンツエラーの解析、品質フィルタリング、合成指示の作成などを含む入念なパイプラインを構築しています。この戦略を適用し、科学文献の理解に特化したSciLitLLMという一連のLLMを提案しています。これらのモデルは、科学文献の理解のベンチマークで有望なパフォーマンスを示しています。 私たちの貢献は3つあります。1つ目は、LLMを科学文献の理解に適応させるためにCPTとSFTを統合する効果的なフレームワークを提示し、他のドメインにも簡単に適応できることです。2つ目は、多様で高品質な科学的指示を生成するためのLLMベースの合成方法を提案し、未代表的な科学的ドメイン向けの監督されたファインチューニング用の新しい指示セットであるSciLitInsを生み出します。3つ目は、SciLitLLMが科学文献の理解のベンチマークで有望なパフォーマンス向上を達成していることです。