AstroLLaMA:天文学における専門化された基盤モデルへのアプローチ
AstroLLaMA: Towards Specialized Foundation Models in Astronomy
September 12, 2023
著者: Tuan Dung Nguyen, Yuan-Sen Ting, Ioana Ciucă, Charlie O'Neill, Ze-Chang Sun, Maja Jabłońska, Sandor Kruk, Ernest Perkowski, Jack Miller, Jason Li, Josh Peek, Kartheik Iyer, Tomasz Różański, Pranav Khetarpal, Sharaf Zaman, David Brodrick, Sergio J. Rodríguez Méndez, Thang Bui, Alyssa Goodman, Alberto Accomazzi, Jill Naiman, Jesse Cranney, Kevin Schawinski, UniverseTBD
cs.AI
要旨
大規模言語モデルは多くの人間の言語タスクで優れた性能を発揮しますが、学術的な天文学のような高度に専門化された領域ではしばしば不十分です。このギャップを埋めるため、arXivから収集した30万以上の天文学アブストラクトを用いてLLaMA-2からファインチューニングした70億パラメータのモデル、AstroLLaMAを紹介します。従来の因果的言語モデリングに最適化されたAstroLLaMAは、LLaMA-2と比べて30%低いパープレキシティを達成し、顕著なドメイン適応を示しています。本モデルは、パラメータ数が大幅に少ないにもかかわらず、最先端の基盤モデルよりも洞察に富み科学的に関連性の高いテキスト補完と埋め込み抽出を生成します。AstroLLaMAは、広範なファインチューニングの可能性を秘めた堅牢なドメイン特化型モデルとして機能します。その公開は、自動論文要約や会話エージェント開発を含む天文学に焦点を当てた研究の促進を目的としています。
English
Large language models excel in many human-language tasks but often falter in
highly specialized domains like scholarly astronomy. To bridge this gap, we
introduce AstroLLaMA, a 7-billion-parameter model fine-tuned from LLaMA-2 using
over 300,000 astronomy abstracts from arXiv. Optimized for traditional causal
language modeling, AstroLLaMA achieves a 30% lower perplexity than Llama-2,
showing marked domain adaptation. Our model generates more insightful and
scientifically relevant text completions and embedding extraction than
state-of-the-arts foundation models despite having significantly fewer
parameters. AstroLLaMA serves as a robust, domain-specific model with broad
fine-tuning potential. Its public release aims to spur astronomy-focused
research, including automatic paper summarization and conversational agent
development.