AstroLLaMA: На пути к специализированным базовым моделям в астрономии
AstroLLaMA: Towards Specialized Foundation Models in Astronomy
September 12, 2023
Авторы: Tuan Dung Nguyen, Yuan-Sen Ting, Ioana Ciucă, Charlie O'Neill, Ze-Chang Sun, Maja Jabłońska, Sandor Kruk, Ernest Perkowski, Jack Miller, Jason Li, Josh Peek, Kartheik Iyer, Tomasz Różański, Pranav Khetarpal, Sharaf Zaman, David Brodrick, Sergio J. Rodríguez Méndez, Thang Bui, Alyssa Goodman, Alberto Accomazzi, Jill Naiman, Jesse Cranney, Kevin Schawinski, UniverseTBD
cs.AI
Аннотация
Крупные языковые модели демонстрируют высокие результаты во многих задачах, связанных с человеческим языком, но часто оказываются неэффективными в узкоспециализированных областях, таких как научная астрономия. Чтобы устранить этот разрыв, мы представляем AstroLLaMA — модель с 7 миллиардами параметров, дообученную на основе LLaMA-2 с использованием более 300 000 аннотаций астрономических статей из arXiv. Оптимизированная для традиционного каузального языкового моделирования, AstroLLaMA достигает на 30% меньшей перплексии по сравнению с LLaMA-2, демонстрируя заметную адаптацию к предметной области. Наша модель генерирует более содержательные и научно релевантные текстовые завершения и извлечения эмбеддингов, чем современные базовые модели, несмотря на значительно меньшее количество параметров. AstroLLaMA служит мощной специализированной моделью с широким потенциалом для дообучения. Ее публичный выпуск направлен на стимулирование исследований, ориентированных на астрономию, включая автоматическое суммирование статей и разработку диалоговых агентов.
English
Large language models excel in many human-language tasks but often falter in
highly specialized domains like scholarly astronomy. To bridge this gap, we
introduce AstroLLaMA, a 7-billion-parameter model fine-tuned from LLaMA-2 using
over 300,000 astronomy abstracts from arXiv. Optimized for traditional causal
language modeling, AstroLLaMA achieves a 30% lower perplexity than Llama-2,
showing marked domain adaptation. Our model generates more insightful and
scientifically relevant text completions and embedding extraction than
state-of-the-arts foundation models despite having significantly fewer
parameters. AstroLLaMA serves as a robust, domain-specific model with broad
fine-tuning potential. Its public release aims to spur astronomy-focused
research, including automatic paper summarization and conversational agent
development.