INDUS: Effektive und effiziente Sprachmodelle für wissenschaftliche Anwendungen

papers.abstract

Große Sprachmodelle (LLMs), die auf allgemeinen Korpora trainiert wurden, zeigten bemerkenswerte Ergebnisse bei natürlichsprachlichen Verarbeitungsaufgaben (NLP). Frühere Forschungsergebnisse haben jedoch gezeigt, dass LLMs, die mit auf einen bestimmten Bereich fokussierten Korpora trainiert wurden, besser bei spezialisierten Aufgaben abschneiden. Inspiriert von diesem entscheidenden Einblick haben wir INDUS entwickelt, eine umfassende Suite von LLMs, die für die Bereiche Erdwissenschaften, Biologie, Physik, Heliophysik, Planetenwissenschaften und Astrophysik maßgeschneidert sind und mit kuratierten wissenschaftlichen Korpora aus verschiedenen Datenquellen trainiert wurden. Die Modellsuite umfasst: (1) ein Encoder-Modell, das mit domänenspezifischem Vokabular und Korpora trainiert wurde, um Aufgaben des natürlichen Sprachverstehens zu bewältigen, (2) ein auf kontrastivem Lernen basierendes allgemeines Texteinbettungsmodell, das mit einer vielfältigen Datensatzsammlung aus verschiedenen Quellen trainiert wurde, um Informationsabrufaufgaben zu bewältigen, und (3) kleinere Versionen dieser Modelle, die mithilfe von Wissensvermittlungstechniken erstellt wurden, um Anwendungen anzugehen, die Latenzzeiten oder Ressourcenbeschränkungen haben. Darüber hinaus haben wir drei neue wissenschaftliche Benchmark-Datensätze erstellt, nämlich CLIMATE-CHANGE-NER (Entitätenerkennung), NASA-QA (extraktive QA) und NASA-IR (IR), um die Forschung in diesen multidisziplinären Bereichen zu beschleunigen. Schließlich zeigen wir, dass unsere Modelle sowohl allgemeine Encoder (RoBERTa) als auch vorhandene domänenspezifische Encoder (SciBERT) bei diesen neuen Aufgaben sowie bestehenden Benchmark-Aufgaben in den interessierenden Bereichen übertreffen.

English

Large language models (LLMs) trained on general domain corpora showed remarkable results on natural language processing (NLP) tasks. However, previous research demonstrated LLMs trained using domain-focused corpora perform better on specialized tasks. Inspired by this pivotal insight, we developed INDUS, a comprehensive suite of LLMs tailored for the Earth science, biology, physics, heliophysics, planetary sciences and astrophysics domains and trained using curated scientific corpora drawn from diverse data sources. The suite of models include: (1) an encoder model trained using domain-specific vocabulary and corpora to address natural language understanding tasks, (2) a contrastive-learning-based general text embedding model trained using a diverse set of datasets drawn from multiple sources to address information retrieval tasks and (3) smaller versions of these models created using knowledge distillation techniques to address applications which have latency or resource constraints. We also created three new scientific benchmark datasets namely, CLIMATE-CHANGE-NER (entity-recognition), NASA-QA (extractive QA) and NASA-IR (IR) to accelerate research in these multi-disciplinary fields. Finally, we show that our models outperform both general-purpose encoders (RoBERTa) and existing domain-specific encoders (SciBERT) on these new tasks as well as existing benchmark tasks in the domains of interest.

INDUS: Effektive und effiziente Sprachmodelle für wissenschaftliche Anwendungen

INDUS: Effective and Efficient Language Models for Scientific Applications

papers.abstract

Support