AstroLLaMA: Rumo a Modelos de Fundação Especializados em Astronomia

Resumo

Modelos de linguagem de grande escala se destacam em muitas tarefas de linguagem humana, mas frequentemente falham em domínios altamente especializados, como a astronomia acadêmica. Para preencher essa lacuna, apresentamos o AstroLLaMA, um modelo de 7 bilhões de parâmetros ajustado a partir do LLaMA-2 utilizando mais de 300.000 resumos de astronomia do arXiv. Otimizado para modelagem de linguagem causal tradicional, o AstroLLaMA alcança uma perplexidade 30% menor que o LLaMA-2, demonstrando uma adaptação significativa ao domínio. Nosso modelo gera completamentos de texto mais perspicazes e cientificamente relevantes, além de extrações de embeddings mais eficazes do que os modelos de base state-of-the-art, apesar de ter significativamente menos parâmetros. O AstroLLaMA serve como um modelo robusto e específico para o domínio, com amplo potencial de ajuste fino. Sua liberação pública visa impulsionar pesquisas focadas em astronomia, incluindo a sumarização automática de artigos e o desenvolvimento de agentes conversacionais.

English

Large language models excel in many human-language tasks but often falter in highly specialized domains like scholarly astronomy. To bridge this gap, we introduce AstroLLaMA, a 7-billion-parameter model fine-tuned from LLaMA-2 using over 300,000 astronomy abstracts from arXiv. Optimized for traditional causal language modeling, AstroLLaMA achieves a 30% lower perplexity than Llama-2, showing marked domain adaptation. Our model generates more insightful and scientifically relevant text completions and embedding extraction than state-of-the-arts foundation models despite having significantly fewer parameters. AstroLLaMA serves as a robust, domain-specific model with broad fine-tuning potential. Its public release aims to spur astronomy-focused research, including automatic paper summarization and conversational agent development.

AstroLLaMA: Rumo a Modelos de Fundação Especializados em Astronomia

AstroLLaMA: Towards Specialized Foundation Models in Astronomy

Resumo

Support