ChatPaper.aiChatPaper

AstroLLaMA: Verso Modelli Fondamentali Specializzati in Astronomia

AstroLLaMA: Towards Specialized Foundation Models in Astronomy

September 12, 2023
Autori: Tuan Dung Nguyen, Yuan-Sen Ting, Ioana Ciucă, Charlie O'Neill, Ze-Chang Sun, Maja Jabłońska, Sandor Kruk, Ernest Perkowski, Jack Miller, Jason Li, Josh Peek, Kartheik Iyer, Tomasz Różański, Pranav Khetarpal, Sharaf Zaman, David Brodrick, Sergio J. Rodríguez Méndez, Thang Bui, Alyssa Goodman, Alberto Accomazzi, Jill Naiman, Jesse Cranney, Kevin Schawinski, UniverseTBD
cs.AI

Abstract

I grandi modelli linguistici eccellono in molti compiti legati al linguaggio umano, ma spesso incontrano difficoltà in domini altamente specializzati come l'astronomia accademica. Per colmare questa lacuna, presentiamo AstroLLaMA, un modello da 7 miliardi di parametri ottimizzato a partire da LLaMA-2 utilizzando oltre 300.000 abstract di astronomia provenienti da arXiv. Ottimizzato per il tradizionale modeling linguistico causale, AstroLLaMA raggiunge una perplessità inferiore del 30% rispetto a LLaMA-2, dimostrando un marcato adattamento al dominio. Il nostro modello genera completamenti di testo più approfonditi e scientificamente rilevanti, nonché estrazioni di embedding, rispetto ai modelli di base all'avanguardia, nonostante abbia un numero significativamente inferiore di parametri. AstroLLaMA si configura come un modello robusto e specifico per il dominio, con ampio potenziale di fine-tuning. La sua release pubblica mira a stimolare la ricerca focalizzata sull'astronomia, inclusa la sintesi automatica di articoli e lo sviluppo di agenti conversazionali.
English
Large language models excel in many human-language tasks but often falter in highly specialized domains like scholarly astronomy. To bridge this gap, we introduce AstroLLaMA, a 7-billion-parameter model fine-tuned from LLaMA-2 using over 300,000 astronomy abstracts from arXiv. Optimized for traditional causal language modeling, AstroLLaMA achieves a 30% lower perplexity than Llama-2, showing marked domain adaptation. Our model generates more insightful and scientifically relevant text completions and embedding extraction than state-of-the-arts foundation models despite having significantly fewer parameters. AstroLLaMA serves as a robust, domain-specific model with broad fine-tuning potential. Its public release aims to spur astronomy-focused research, including automatic paper summarization and conversational agent development.
PDF180December 15, 2024