ChatPaper.aiChatPaper

AstroLLaMA : Vers des modèles de fondation spécialisés en astronomie

AstroLLaMA: Towards Specialized Foundation Models in Astronomy

September 12, 2023
Auteurs: Tuan Dung Nguyen, Yuan-Sen Ting, Ioana Ciucă, Charlie O'Neill, Ze-Chang Sun, Maja Jabłońska, Sandor Kruk, Ernest Perkowski, Jack Miller, Jason Li, Josh Peek, Kartheik Iyer, Tomasz Różański, Pranav Khetarpal, Sharaf Zaman, David Brodrick, Sergio J. Rodríguez Méndez, Thang Bui, Alyssa Goodman, Alberto Accomazzi, Jill Naiman, Jesse Cranney, Kevin Schawinski, UniverseTBD
cs.AI

Résumé

Les grands modèles de langage excellent dans de nombreuses tâches linguistiques humaines, mais peinent souvent dans des domaines hautement spécialisés comme l'astronomie académique. Pour combler cette lacune, nous présentons AstroLLaMA, un modèle de 7 milliards de paramètres affiné à partir de LLaMA-2 en utilisant plus de 300 000 résumés d'articles d'astronomie provenant d'arXiv. Optimisé pour la modélisation causale traditionnelle du langage, AstroLLaMA atteint une perplexité 30 % inférieure à celle de LLaMA-2, démontrant une adaptation marquée au domaine. Notre modèle génère des complétions de texte plus perspicaces et scientifiquement pertinentes, ainsi que des extractions d'embeddings plus performantes que les modèles de base de pointe, malgré un nombre de paramètres significativement moindre. AstroLLaMA constitue un modèle robuste et spécifique au domaine, offrant un large potentiel d'affinage. Sa publication publique vise à stimuler la recherche axée sur l'astronomie, incluant la synthèse automatique d'articles et le développement d'agents conversationnels.
English
Large language models excel in many human-language tasks but often falter in highly specialized domains like scholarly astronomy. To bridge this gap, we introduce AstroLLaMA, a 7-billion-parameter model fine-tuned from LLaMA-2 using over 300,000 astronomy abstracts from arXiv. Optimized for traditional causal language modeling, AstroLLaMA achieves a 30% lower perplexity than Llama-2, showing marked domain adaptation. Our model generates more insightful and scientifically relevant text completions and embedding extraction than state-of-the-arts foundation models despite having significantly fewer parameters. AstroLLaMA serves as a robust, domain-specific model with broad fine-tuning potential. Its public release aims to spur astronomy-focused research, including automatic paper summarization and conversational agent development.
PDF170December 15, 2024