INDUS: Modelos de Lenguaje Eficaces y Eficientes para Aplicaciones CientíficasINDUS: Effective and Efficient Language Models for Scientific
Applications
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) entrenados en corpus de dominio general han mostrado resultados notables en tareas de procesamiento del lenguaje natural (NLP). Sin embargo, investigaciones previas han demostrado que los LLMs entrenados con corpus centrados en dominios específicos tienen un mejor desempeño en tareas especializadas. Inspirados por esta idea fundamental, desarrollamos INDUS, un conjunto integral de LLMs diseñados específicamente para los dominios de ciencias de la Tierra, biología, física, heliofísica, ciencias planetarias y astrofísica, y entrenados con corpus científicos cuidadosamente seleccionados provenientes de diversas fuentes de datos. Este conjunto de modelos incluye: (1) un modelo codificador entrenado con vocabulario y corpus específicos del dominio para abordar tareas de comprensión del lenguaje natural, (2) un modelo de incrustación de texto general basado en aprendizaje contrastivo, entrenado con un conjunto diverso de datos provenientes de múltiples fuentes para abordar tareas de recuperación de información, y (3) versiones más pequeñas de estos modelos creadas mediante técnicas de destilación de conocimiento para aplicaciones con restricciones de latencia o recursos. Además, creamos tres nuevos conjuntos de datos de referencia científica: CLIMATE-CHANGE-NER (reconocimiento de entidades), NASA-QA (preguntas y respuestas extractivas) y NASA-IR (recuperación de información) para acelerar la investigación en estos campos multidisciplinarios. Finalmente, demostramos que nuestros modelos superan tanto a los codificadores de propósito general (RoBERTa) como a los codificadores específicos del dominio existentes (SciBERT) en estas nuevas tareas, así como en tareas de referencia existentes en los dominios de interés.