ChatPaper.aiChatPaper

AstroLLaMA: Rumo a Modelos de Fundação Especializados em Astronomia

AstroLLaMA: Towards Specialized Foundation Models in Astronomy

September 12, 2023
Autores: Tuan Dung Nguyen, Yuan-Sen Ting, Ioana Ciucă, Charlie O'Neill, Ze-Chang Sun, Maja Jabłońska, Sandor Kruk, Ernest Perkowski, Jack Miller, Jason Li, Josh Peek, Kartheik Iyer, Tomasz Różański, Pranav Khetarpal, Sharaf Zaman, David Brodrick, Sergio J. Rodríguez Méndez, Thang Bui, Alyssa Goodman, Alberto Accomazzi, Jill Naiman, Jesse Cranney, Kevin Schawinski, UniverseTBD
cs.AI

Resumo

Modelos de linguagem de grande escala se destacam em muitas tarefas de linguagem humana, mas frequentemente falham em domínios altamente especializados, como a astronomia acadêmica. Para preencher essa lacuna, apresentamos o AstroLLaMA, um modelo de 7 bilhões de parâmetros ajustado a partir do LLaMA-2 utilizando mais de 300.000 resumos de astronomia do arXiv. Otimizado para modelagem de linguagem causal tradicional, o AstroLLaMA alcança uma perplexidade 30% menor que o LLaMA-2, demonstrando uma adaptação significativa ao domínio. Nosso modelo gera completamentos de texto mais perspicazes e cientificamente relevantes, além de extrações de embeddings mais eficazes do que os modelos de base state-of-the-art, apesar de ter significativamente menos parâmetros. O AstroLLaMA serve como um modelo robusto e específico para o domínio, com amplo potencial de ajuste fino. Sua liberação pública visa impulsionar pesquisas focadas em astronomia, incluindo a sumarização automática de artigos e o desenvolvimento de agentes conversacionais.
English
Large language models excel in many human-language tasks but often falter in highly specialized domains like scholarly astronomy. To bridge this gap, we introduce AstroLLaMA, a 7-billion-parameter model fine-tuned from LLaMA-2 using over 300,000 astronomy abstracts from arXiv. Optimized for traditional causal language modeling, AstroLLaMA achieves a 30% lower perplexity than Llama-2, showing marked domain adaptation. Our model generates more insightful and scientifically relevant text completions and embedding extraction than state-of-the-arts foundation models despite having significantly fewer parameters. AstroLLaMA serves as a robust, domain-specific model with broad fine-tuning potential. Its public release aims to spur astronomy-focused research, including automatic paper summarization and conversational agent development.
PDF180December 15, 2024