ChatPaper.aiChatPaper

AstroLLaMA: Op weg naar gespecialiseerde foundation-modellen in de astronomie

AstroLLaMA: Towards Specialized Foundation Models in Astronomy

September 12, 2023
Auteurs: Tuan Dung Nguyen, Yuan-Sen Ting, Ioana Ciucă, Charlie O'Neill, Ze-Chang Sun, Maja Jabłońska, Sandor Kruk, Ernest Perkowski, Jack Miller, Jason Li, Josh Peek, Kartheik Iyer, Tomasz Różański, Pranav Khetarpal, Sharaf Zaman, David Brodrick, Sergio J. Rodríguez Méndez, Thang Bui, Alyssa Goodman, Alberto Accomazzi, Jill Naiman, Jesse Cranney, Kevin Schawinski, UniverseTBD
cs.AI

Samenvatting

Grote taalmodellen blinken uit in veel menselijke-taaltaken, maar falen vaak in sterk gespecialiseerde domeinen zoals wetenschappelijke astronomie. Om deze kloof te overbruggen, introduceren we AstroLLaMA, een model met 7 miljard parameters dat is afgestemd op LLaMA-2 met behulp van meer dan 300.000 astronomie-samenvattingen van arXiv. Geoptimaliseerd voor traditioneel causaal taalmodelleren, behaalt AstroLLaMA een 30% lagere perplexiteit dan LLaMA-2, wat duidt op een opmerkelijke domeinaanpassing. Ons model genereert meer inzichtelijke en wetenschappelijk relevante tekstcompleties en embedding-extracties dan state-of-the-art foundation-modellen, ondanks een aanzienlijk lager aantal parameters. AstroLLaMA dient als een robuust, domeinspecifiek model met brede afstemmingsmogelijkheden. De openbare release ervan heeft als doel astronomiegericht onderzoek te stimuleren, waaronder automatische papersamenvatting en de ontwikkeling van conversatieagentschappen.
English
Large language models excel in many human-language tasks but often falter in highly specialized domains like scholarly astronomy. To bridge this gap, we introduce AstroLLaMA, a 7-billion-parameter model fine-tuned from LLaMA-2 using over 300,000 astronomy abstracts from arXiv. Optimized for traditional causal language modeling, AstroLLaMA achieves a 30% lower perplexity than Llama-2, showing marked domain adaptation. Our model generates more insightful and scientifically relevant text completions and embedding extraction than state-of-the-arts foundation models despite having significantly fewer parameters. AstroLLaMA serves as a robust, domain-specific model with broad fine-tuning potential. Its public release aims to spur astronomy-focused research, including automatic paper summarization and conversational agent development.
PDF180December 15, 2024