INDUS: Modelos de Lenguaje Eficaces y Eficientes para Aplicaciones Científicas

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) entrenados en corpus de dominio general han mostrado resultados notables en tareas de procesamiento del lenguaje natural (NLP). Sin embargo, investigaciones previas han demostrado que los LLMs entrenados con corpus centrados en dominios específicos tienen un mejor desempeño en tareas especializadas. Inspirados por esta idea fundamental, desarrollamos INDUS, un conjunto integral de LLMs diseñados específicamente para los dominios de ciencias de la Tierra, biología, física, heliofísica, ciencias planetarias y astrofísica, y entrenados con corpus científicos cuidadosamente seleccionados provenientes de diversas fuentes de datos. Este conjunto de modelos incluye: (1) un modelo codificador entrenado con vocabulario y corpus específicos del dominio para abordar tareas de comprensión del lenguaje natural, (2) un modelo de incrustación de texto general basado en aprendizaje contrastivo, entrenado con un conjunto diverso de datos provenientes de múltiples fuentes para abordar tareas de recuperación de información, y (3) versiones más pequeñas de estos modelos creadas mediante técnicas de destilación de conocimiento para aplicaciones con restricciones de latencia o recursos. Además, creamos tres nuevos conjuntos de datos de referencia científica: CLIMATE-CHANGE-NER (reconocimiento de entidades), NASA-QA (preguntas y respuestas extractivas) y NASA-IR (recuperación de información) para acelerar la investigación en estos campos multidisciplinarios. Finalmente, demostramos que nuestros modelos superan tanto a los codificadores de propósito general (RoBERTa) como a los codificadores específicos del dominio existentes (SciBERT) en estas nuevas tareas, así como en tareas de referencia existentes en los dominios de interés.

English

Large language models (LLMs) trained on general domain corpora showed remarkable results on natural language processing (NLP) tasks. However, previous research demonstrated LLMs trained using domain-focused corpora perform better on specialized tasks. Inspired by this pivotal insight, we developed INDUS, a comprehensive suite of LLMs tailored for the Earth science, biology, physics, heliophysics, planetary sciences and astrophysics domains and trained using curated scientific corpora drawn from diverse data sources. The suite of models include: (1) an encoder model trained using domain-specific vocabulary and corpora to address natural language understanding tasks, (2) a contrastive-learning-based general text embedding model trained using a diverse set of datasets drawn from multiple sources to address information retrieval tasks and (3) smaller versions of these models created using knowledge distillation techniques to address applications which have latency or resource constraints. We also created three new scientific benchmark datasets namely, CLIMATE-CHANGE-NER (entity-recognition), NASA-QA (extractive QA) and NASA-IR (IR) to accelerate research in these multi-disciplinary fields. Finally, we show that our models outperform both general-purpose encoders (RoBERTa) and existing domain-specific encoders (SciBERT) on these new tasks as well as existing benchmark tasks in the domains of interest.

INDUS: Modelos de Lenguaje Eficaces y Eficientes para Aplicaciones Científicas

INDUS: Effective and Efficient Language Models for Scientific Applications

Resumen

Support