ChatPaper.aiChatPaper

AstroLLaMA: Hacia Modelos Fundacionales Especializados en Astronomía

AstroLLaMA: Towards Specialized Foundation Models in Astronomy

September 12, 2023
Autores: Tuan Dung Nguyen, Yuan-Sen Ting, Ioana Ciucă, Charlie O'Neill, Ze-Chang Sun, Maja Jabłońska, Sandor Kruk, Ernest Perkowski, Jack Miller, Jason Li, Josh Peek, Kartheik Iyer, Tomasz Różański, Pranav Khetarpal, Sharaf Zaman, David Brodrick, Sergio J. Rodríguez Méndez, Thang Bui, Alyssa Goodman, Alberto Accomazzi, Jill Naiman, Jesse Cranney, Kevin Schawinski, UniverseTBD
cs.AI

Resumen

Los modelos de lenguaje a gran escala sobresalen en muchas tareas relacionadas con el lenguaje humano, pero a menudo tropiezan en dominios altamente especializados como la astronomía académica. Para cerrar esta brecha, presentamos AstroLLaMA, un modelo de 7 mil millones de parámetros ajustado a partir de LLaMA-2 utilizando más de 300,000 resúmenes de astronomía de arXiv. Optimizado para el modelado causal tradicional de lenguaje, AstroLLaMA logra un 30% menos de perplejidad que LLaMA-2, mostrando una notable adaptación al dominio. Nuestro modelo genera completaciones de texto más perspicaces y científicamente relevantes, así como extracciones de embeddings, en comparación con los modelos base más avanzados, a pesar de tener significativamente menos parámetros. AstroLLaMA sirve como un modelo robusto y específico del dominio con un amplio potencial de ajuste fino. Su lanzamiento público tiene como objetivo impulsar la investigación centrada en la astronomía, incluyendo la automatización de resúmenes de artículos y el desarrollo de agentes conversacionales.
English
Large language models excel in many human-language tasks but often falter in highly specialized domains like scholarly astronomy. To bridge this gap, we introduce AstroLLaMA, a 7-billion-parameter model fine-tuned from LLaMA-2 using over 300,000 astronomy abstracts from arXiv. Optimized for traditional causal language modeling, AstroLLaMA achieves a 30% lower perplexity than Llama-2, showing marked domain adaptation. Our model generates more insightful and scientifically relevant text completions and embedding extraction than state-of-the-arts foundation models despite having significantly fewer parameters. AstroLLaMA serves as a robust, domain-specific model with broad fine-tuning potential. Its public release aims to spur astronomy-focused research, including automatic paper summarization and conversational agent development.
PDF170December 15, 2024