INDUS: Effektive und effiziente Sprachmodelle für wissenschaftliche AnwendungenINDUS: Effective and Efficient Language Models for Scientific
Applications
Große Sprachmodelle (LLMs), die auf allgemeinen Korpora trainiert wurden, zeigten bemerkenswerte Ergebnisse bei natürlichsprachlichen Verarbeitungsaufgaben (NLP). Frühere Forschungsergebnisse haben jedoch gezeigt, dass LLMs, die mit auf einen bestimmten Bereich fokussierten Korpora trainiert wurden, besser bei spezialisierten Aufgaben abschneiden. Inspiriert von diesem entscheidenden Einblick haben wir INDUS entwickelt, eine umfassende Suite von LLMs, die für die Bereiche Erdwissenschaften, Biologie, Physik, Heliophysik, Planetenwissenschaften und Astrophysik maßgeschneidert sind und mit kuratierten wissenschaftlichen Korpora aus verschiedenen Datenquellen trainiert wurden. Die Modellsuite umfasst: (1) ein Encoder-Modell, das mit domänenspezifischem Vokabular und Korpora trainiert wurde, um Aufgaben des natürlichen Sprachverstehens zu bewältigen, (2) ein auf kontrastivem Lernen basierendes allgemeines Texteinbettungsmodell, das mit einer vielfältigen Datensatzsammlung aus verschiedenen Quellen trainiert wurde, um Informationsabrufaufgaben zu bewältigen, und (3) kleinere Versionen dieser Modelle, die mithilfe von Wissensvermittlungstechniken erstellt wurden, um Anwendungen anzugehen, die Latenzzeiten oder Ressourcenbeschränkungen haben. Darüber hinaus haben wir drei neue wissenschaftliche Benchmark-Datensätze erstellt, nämlich CLIMATE-CHANGE-NER (Entitätenerkennung), NASA-QA (extraktive QA) und NASA-IR (IR), um die Forschung in diesen multidisziplinären Bereichen zu beschleunigen. Schließlich zeigen wir, dass unsere Modelle sowohl allgemeine Encoder (RoBERTa) als auch vorhandene domänenspezifische Encoder (SciBERT) bei diesen neuen Aufgaben sowie bestehenden Benchmark-Aufgaben in den interessierenden Bereichen übertreffen.