Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) entrenados en corpus de dominio general han mostrado resultados notables en tareas de procesamiento del lenguaje natural (NLP). Sin embargo, investigaciones previas han demostrado que los LLMs entrenados con corpus centrados en dominios específicos tienen un mejor desempeño en tareas especializadas. Inspirados por esta idea fundamental, desarrollamos INDUS, un conjunto integral de LLMs diseñados específicamente para los dominios de ciencias de la Tierra, biología, física, heliofísica, ciencias planetarias y astrofísica, y entrenados con corpus científicos cuidadosamente seleccionados provenientes de diversas fuentes de datos. Este conjunto de modelos incluye: (1) un modelo codificador entrenado con vocabulario y corpus específicos del dominio para abordar tareas de comprensión del lenguaje natural, (2) un modelo de incrustación de texto general basado en aprendizaje contrastivo, entrenado con un conjunto diverso de datos provenientes de múltiples fuentes para abordar tareas de recuperación de información, y (3) versiones más pequeñas de estos modelos creadas mediante técnicas de destilación de conocimiento para aplicaciones con restricciones de latencia o recursos. Además, creamos tres nuevos conjuntos de datos de referencia científica: CLIMATE-CHANGE-NER (reconocimiento de entidades), NASA-QA (preguntas y respuestas extractivas) y NASA-IR (recuperación de información) para acelerar la investigación en estos campos multidisciplinarios. Finalmente, demostramos que nuestros modelos superan tanto a los codificadores de propósito general (RoBERTa) como a los codificadores específicos del dominio existentes (SciBERT) en estas nuevas tareas, así como en tareas de referencia existentes en los dominios de interés.
El alto consumo de memoria ha sido un cuello de botella importante para implementar modelos de lenguaje grandes de alto rendimiento en aplicaciones del mundo real. Además del gran número de parámetros, la caché de clave-valor (KV) para el mecanismo de atención en la arquitectura transformer consume una cantidad significativa de memoria, especialmente cuando el número de capas es grande en modelos de lenguaje profundos. En este artículo, proponemos un método novedoso que solo calcula y almacena en caché los KVs de un número reducido de capas, lo que reduce significativamente el consumo de memoria y mejora el rendimiento de la inferencia. Nuestros experimentos con modelos de lenguaje grandes muestran que nuestro método logra un rendimiento hasta 26 veces mayor que los transformers estándar, con un desempeño competitivo en modelado de lenguaje y tareas posteriores. Además, nuestro método es ortogonal a las técnicas existentes de ahorro de memoria en transformers, por lo que es sencillo integrarlas con nuestro modelo, logrando una mejora adicional en la eficiencia de la inferencia. Nuestro código está disponible en https://github.com/whyNLP/LCKV.
Comprender cómo varía el rendimiento de los modelos de lenguaje con la escala es fundamental para el desarrollo de benchmarks y algoritmos. Las leyes de escalamiento son un enfoque para construir esta comprensión, pero la necesidad de entrenar modelos en muchas escalas diferentes ha limitado su uso. Proponemos un enfoque alternativo, observacional, que evita el entrenamiento de modelos y, en su lugar, construye leyes de escalamiento a partir de ~80 modelos disponibles públicamente. Construir una única ley de escalamiento a partir de múltiples familias de modelos es un desafío debido a las grandes variaciones en sus eficiencias computacionales de entrenamiento y capacidades. Sin embargo, demostramos que estas variaciones son consistentes con una ley de escalamiento generalizada y simple, donde el rendimiento del modelo de lenguaje es una función de un espacio de capacidades de baja dimensión, y las familias de modelos solo varían en su eficiencia para convertir el cómputo de entrenamiento en capacidades. Utilizando este enfoque, mostramos la sorprendente previsibilidad de fenómenos de escalamiento complejos: demostramos que varios fenómenos emergentes siguen un comportamiento suave y sigmoide y son predecibles a partir de modelos pequeños; mostramos que el rendimiento de agentes como GPT-4 puede predecirse con precisión a partir de benchmarks no agenticos más simples; y mostramos cómo predecir el impacto de intervenciones post-entrenamiento como Chain-of-Thought y Self-Consistency a medida que las capacidades de los modelos de lenguaje continúan mejorando.
Estudios previos sobre comprensión de escenas 3D han desarrollado principalmente modelos especializados para tareas específicas o han requerido ajustes específicos para cada tarea. En este estudio, proponemos Grounded 3D-LLM, que explora el potencial de los modelos multimodales grandes en 3D (3D LMMs) para consolidar diversas tareas de visión 3D dentro de un marco generativo unificado. El modelo utiliza tokens de referencia de escena como frases nominales especiales para referenciar escenas 3D, permitiendo el manejo de secuencias que intercalan datos 3D y textuales. Ofrece un enfoque natural para traducir tareas de visión 3D a formatos de lenguaje utilizando plantillas de instrucción específicas para cada tarea. Para facilitar el uso de tokens de referencia en el modelado de lenguaje subsiguiente, hemos creado conjuntos de datos de lenguaje anclado a gran escala que ofrecen una correspondencia más detallada entre escena y texto a nivel de frase, aprovechando etiquetas de objetos existentes. Posteriormente, introdujimos el preentrenamiento Contrastivo de Lenguaje-Escena (CLASP) para aprovechar eficazmente estos datos, integrando así la visión 3D con modelos de lenguaje. Nuestra evaluación exhaustiva cubre tareas de respuesta abierta como la generación de descripciones densas y preguntas y respuestas en 3D, junto con tareas de respuesta cerrada como la detección de objetos y el anclaje de lenguaje. Los experimentos en múltiples benchmarks de 3D revelan el rendimiento líder y la amplia aplicabilidad de Grounded 3D-LLM. El código y los conjuntos de datos se publicarán en la página del proyecto: https://groundedscenellm.github.io/grounded_3d-llm.github.io.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han captado una atención significativa en el campo del procesamiento del lenguaje natural (NLP) debido a su amplia gama de aplicaciones. Sin embargo, entrenar LLMs para idiomas distintos al inglés presenta desafíos considerables, principalmente por la dificultad de adquirir corpus a gran escala y los recursos computacionales necesarios. En este artículo, proponemos ChatFlow, un LLM basado en transferencia interlingüística, para abordar estos desafíos y entrenar modelos de lenguaje chino de gran escala de manera rentable. Utilizamos una combinación de corpus en chino, inglés y paralelos para entrenar continuamente el modelo LLaMA2, con el objetivo de alinear las representaciones interlingüísticas y facilitar la transferencia de conocimiento específicamente al modelo de lenguaje chino. Además, empleamos un muestreador dinámico de datos para transicionar progresivamente el modelo desde el preentrenamiento no supervisado hasta el ajuste fino supervisado. Los resultados experimentales demuestran que nuestro enfoque acelera la convergencia del modelo y logra un rendimiento superior. Evaluamos ChatFlow en benchmarks populares de chino e inglés, y los resultados indican que supera a otros modelos chinos ajustados posteriormente sobre LLaMA-2-7B.