ChatPaper.aiChatPaper

AstroLLaMA: Auf dem Weg zu spezialisierten Foundation-Modellen in der Astronomie

AstroLLaMA: Towards Specialized Foundation Models in Astronomy

September 12, 2023
Autoren: Tuan Dung Nguyen, Yuan-Sen Ting, Ioana Ciucă, Charlie O'Neill, Ze-Chang Sun, Maja Jabłońska, Sandor Kruk, Ernest Perkowski, Jack Miller, Jason Li, Josh Peek, Kartheik Iyer, Tomasz Różański, Pranav Khetarpal, Sharaf Zaman, David Brodrick, Sergio J. Rodríguez Méndez, Thang Bui, Alyssa Goodman, Alberto Accomazzi, Jill Naiman, Jesse Cranney, Kevin Schawinski, UniverseTBD
cs.AI

Zusammenfassung

Große Sprachmodelle glänzen in vielen Aufgaben der menschlichen Sprache, scheitern jedoch oft in hochspezialisierten Domänen wie der wissenschaftlichen Astronomie. Um diese Lücke zu schließen, stellen wir AstroLLaMA vor, ein 7-Milliarden-Parameter-Modell, das aus LLaMA-2 durch Feinabstimmung mit über 300.000 astronomischen Abstracts von arXiv entwickelt wurde. Optimiert für traditionelles kausales Sprachmodellieren, erreicht AstroLLaMA eine um 30 % geringere Perplexität als LLaMA-2 und zeigt eine deutliche Domänenanpassung. Unser Modell erzeugt tiefgründigere und wissenschaftlich relevantere Textvervollständigungen und Embedding-Extraktionen als state-of-the-art Foundation-Modelle, obwohl es deutlich weniger Parameter aufweist. AstroLLaMA dient als robustes, domänenspezifisches Modell mit breitem Feinabstimmungspotenzial. Seine öffentliche Freigabe zielt darauf ab, astronomiebezogene Forschung zu fördern, einschließlich automatischer Artikelzusammenfassung und der Entwicklung von Konversationsagenten.
English
Large language models excel in many human-language tasks but often falter in highly specialized domains like scholarly astronomy. To bridge this gap, we introduce AstroLLaMA, a 7-billion-parameter model fine-tuned from LLaMA-2 using over 300,000 astronomy abstracts from arXiv. Optimized for traditional causal language modeling, AstroLLaMA achieves a 30% lower perplexity than Llama-2, showing marked domain adaptation. Our model generates more insightful and scientifically relevant text completions and embedding extraction than state-of-the-arts foundation models despite having significantly fewer parameters. AstroLLaMA serves as a robust, domain-specific model with broad fine-tuning potential. Its public release aims to spur astronomy-focused research, including automatic paper summarization and conversational agent development.
PDF170December 15, 2024