Artículos de investigación en IA seleccionados diariamente con traducciones
Si bien los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) demuestran capacidades impresionantes en la generación de texto, encontramos que su habilidad aún no se ha generalizado a la música, el lenguaje creativo de la humanidad. Presentamos ChatMusician, un LLM de código abierto que integra habilidades musicales intrínsecas. Se basa en el preentrenamiento continuo y el ajuste fino de LLaMA2 en una representación musical compatible con texto, la notación ABC, donde la música es tratada como un segundo lenguaje. ChatMusician puede comprender y generar música con un tokenizador de texto puro, sin necesidad de estructuras neuronales multimodales o tokenizadores externos. Curiosamente, dotar de habilidades musicales no perjudica las habilidades lingüísticas, incluso logrando un puntaje ligeramente superior en MMLU. Nuestro modelo es capaz de componer música bien estructurada y de larga duración, condicionada por textos, acordes, melodías, motivos, formas musicales, etc., superando la línea base de GPT-4. En nuestro meticulosamente elaborado benchmark de comprensión musical a nivel universitario, MusicTheoryBench, ChatMusician supera a LLaMA2 y GPT-3.5 en un entorno de cero disparos por un margen notable. Nuestro trabajo revela que los LLMs pueden ser un excelente compresor para la música, pero aún queda un territorio significativo por conquistar. Publicamos nuestro corpus de lenguaje musical de 4B tokens, MusicPile, el benchmark recopilado MusicTheoryBench, el código, el modelo y la demostración en GitHub.
Presentamos Nemotron-4 15B, un modelo lingüístico grande multilingüe de 15 mil millones de parámetros entrenado con 8 billones de tokens de texto. Nemotron-4 15B demuestra un rendimiento sólido al ser evaluado en tareas en inglés, multilingües y de programación: supera a todos los modelos abiertos de tamaño similar en 4 de las 7 áreas de evaluación descendente y logra un desempeño competitivo frente a los modelos abiertos líderes en las restantes. En particular, Nemotron-4 15B exhibe las mejores capacidades multilingües entre todos los modelos de tamaño similar, superando incluso a modelos más de cuatro veces más grandes y aquellos especializados explícitamente en tareas multilingües.
Si bien entrenar grandes modelos de lenguaje (LLMs) desde cero puede efectivamente resultar en modelos con capacidades y fortalezas distintivas, este enfoque conlleva costos sustanciales y puede generar redundancia en las competencias. Una estrategia alternativa es combinar LLMs existentes para crear un LLM más robusto, reduciendo así la necesidad de un costoso preentrenamiento. Sin embargo, debido a las diversas arquitecturas de los LLMs, la fusión directa de parámetros resulta inviable. Recientemente, FuseLLM introdujo el concepto de fusión de conocimiento para transferir el conocimiento colectivo de múltiples LLMs con estructuras variadas a un LLM objetivo mediante un entrenamiento continuo ligero. En este informe, ampliamos la escalabilidad y flexibilidad del marco FuseLLM para lograr la fusión de LLMs de chat, dando lugar a FuseChat. FuseChat consta de dos etapas principales. En primer lugar, realizamos la fusión de conocimiento para LLMs fuente con estructuras y escalas variadas, obteniendo múltiples LLMs objetivo de estructura y tamaño idénticos mediante un ajuste fino ligero. Luego, estos LLMs objetivo se fusionan en el espacio de parámetros, donde proponemos un método novedoso para determinar los pesos de fusión basado en la relación de variación de las matrices de parámetros antes y después del ajuste fino. Validamos nuestro enfoque utilizando tres destacados LLMs de chat con arquitecturas y escalas diversas, a saber, NH2-Mixtral-8x7B, NH2-Solar-10.7B y OpenChat-3.5-7B. Los resultados experimentales en diversos dominios de chat demuestran la superioridad de \textsc{FuseChat-7B} en un amplio espectro de LLMs de chat en escalas de 7B y 34B, superando incluso a GPT-3.5 (marzo) y acercándose a Mixtral-8x7B-Instruct. Nuestro código, pesos del modelo y datos están disponibles públicamente en https://github.com/fanqiwan/FuseLLM.
Presentamos el diseño, implementación y experiencia de ingeniería en la construcción y despliegue de MegaScale, un sistema de producción para entrenar modelos de lenguaje grandes (LLMs) a una escala de más de 10,000 GPUs. Entrenar LLMs a esta escala presenta desafíos sin precedentes en cuanto a la eficiencia y estabilidad del entrenamiento. Adoptamos un enfoque de pila completa que co-diseña los componentes algorítmicos y del sistema, abarcando el diseño de bloques del modelo y optimizadores, la superposición de computación y comunicación, la optimización de operadores, la canalización de datos y el ajuste del rendimiento de la red. Mantener una alta eficiencia durante todo el proceso de entrenamiento (es decir, estabilidad) es una consideración importante en producción, dado la extensa duración de los trabajos de entrenamiento de LLMs. Muchos problemas de estabilidad difíciles solo surgen a gran escala, y la observabilidad profunda es clave para abordarlos. Desarrollamos un conjunto de herramientas de diagnóstico para monitorear componentes del sistema y eventos en lo profundo de la pila, identificar causas raíz y derivar técnicas efectivas para lograr tolerancia a fallos y mitigar los rezagados. MegaScale logra un 55.2% de Utilización de FLOPs del Modelo (MFU) al entrenar un modelo LLM de 175B en 12,288 GPUs, mejorando el MFU en 1.34x en comparación con Megatron-LM. Compartimos nuestra experiencia operativa en la identificación y corrección de fallos y rezagados. Esperamos que, al articular los problemas y compartir nuestra experiencia desde una perspectiva de sistemas, este trabajo pueda inspirar futuras investigaciones en sistemas de LLMs.
La Adaptación de Bajo Rango (LoRA, por sus siglas en inglés) se utiliza ampliamente en modelos de texto a imagen para la representación precisa de elementos específicos, como personajes distintivos o estilos únicos en imágenes generadas. Sin embargo, los métodos existentes enfrentan desafíos al componer múltiples LoRAs de manera efectiva, especialmente a medida que aumenta el número de LoRAs que deben integrarse, lo que dificulta la creación de imágenes complejas. En este artículo, estudiamos la composición multi-LoRA desde una perspectiva centrada en la decodificación. Presentamos dos métodos que no requieren entrenamiento: LoRA Switch, que alterna entre diferentes LoRAs en cada paso de eliminación de ruido, y LoRA Composite, que incorpora simultáneamente todas las LoRAs para guiar una síntesis de imágenes más cohesionada. Para evaluar los enfoques propuestos, establecemos ComposLoRA, un nuevo banco de pruebas integral como parte de esta investigación. Este incluye una amplia gama de categorías de LoRA con 480 conjuntos de composición. Utilizando un marco de evaluación basado en GPT-4V, nuestros resultados demuestran una mejora clara en el rendimiento con nuestros métodos en comparación con la línea base predominante, particularmente evidente al aumentar el número de LoRAs en una composición.
Estudiamos si los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) realizan de manera latente razonamiento de múltiples saltos con indicaciones complejas como "La madre del cantante de 'Superstition' es". Buscamos evidencia de una vía de razonamiento latente en la que un LLM (1) identifica de manera latente "el cantante de 'Superstition'" como Stevie Wonder, la entidad puente, y (2) utiliza su conocimiento sobre la madre de Stevie Wonder para completar la indicación. Analizamos estos dos saltos de manera individual y consideramos su co-ocurrencia como indicativa de razonamiento de múltiples saltos latente. Para el primer salto, probamos si modificar la indicación para mencionar indirectamente la entidad puente en lugar de cualquier otra entidad aumenta el recuerdo interno del LLM sobre la entidad puente. Para el segundo salto, evaluamos si aumentar este recuerdo hace que el LLM utilice mejor lo que sabe sobre la entidad puente. Encontramos evidencia sólida de razonamiento de múltiples saltos latente para indicaciones de ciertos tipos de relaciones, con la vía de razonamiento utilizada en más del 80% de las indicaciones. Sin embargo, la utilización es altamente contextual, variando entre diferentes tipos de indicaciones. Además, en promedio, la evidencia para el segundo salto y el recorrido completo de múltiples saltos es más bien moderada y solo sustancial para el primer salto. Asimismo, encontramos una clara tendencia de escalamiento con el aumento del tamaño del modelo para el primer salto del razonamiento, pero no para el segundo salto. Nuestros hallazgos experimentales sugieren desafíos y oportunidades potenciales para el desarrollo y aplicaciones futuras de los LLMs.
Las fuentes de datos estructurados, como tablas, gráficos y bases de datos, son fuentes de conocimiento omnipresentes. A pesar de las capacidades demostradas por los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en texto plano, su competencia para interpretar y utilizar datos estructurados sigue siendo limitada. Nuestra investigación revela una deficiencia notable en la capacidad de los LLMs para procesar datos estructurados; por ejemplo, ChatGPT se queda atrás respecto a los modelos de última generación (SoTA, por sus siglas en inglés) en un promedio del 35%. Para mejorar las capacidades de fundamentación de conocimiento estructurado (SKG, por sus siglas en inglés) en los LLMs, hemos desarrollado un conjunto de datos integral para ajuste por instrucciones que comprende 1.1 millones de ejemplos. Utilizando este conjunto de datos, entrenamos una serie de modelos, denominados StructLM, basados en la arquitectura Code-LLaMA, que van desde 7B hasta 34B parámetros. Nuestra serie StructLM supera a los modelos específicos de tareas en 14 de los 18 conjuntos de datos evaluados y establece nuevos logros SoTA en 7 tareas de SKG. Además, StructLM demuestra una generalización excepcional en 6 nuevas tareas de SKG. Contrario a las expectativas, observamos que escalar el tamaño del modelo ofrece beneficios marginales, ya que StructLM-34B muestra solo mejoras leves respecto a StructLM-7B. Esto sugiere que la fundamentación de conocimiento estructurado sigue siendo una tarea desafiante y requiere un diseño más innovador para alcanzar un nuevo nivel.
"Cuanto más grande, mejor" ha sido la tendencia predominante en el desarrollo reciente de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Sin embargo, los LLMs no se adaptan bien a escenarios que requieren procesamiento en el dispositivo, eficiencia energética, baja huella de memoria y eficiencia en las respuestas. Estos requisitos son cruciales para la privacidad, la seguridad y el despliegue sostenible. Este artículo explora el paradigma de "menos es más" abordando el desafío de diseñar Modelos de Lenguaje Pequeños (SLMs, por sus siglas en inglés) precisos pero eficientes para dispositivos con recursos limitados. Nuestra principal contribución es la introducción de un SLM de código abierto, completamente transparente y preciso, con 0.5 mil millones (0.5B) de parámetros, llamado MobiLlama, que atiende a las necesidades específicas de la computación con recursos limitados, enfatizando un rendimiento mejorado con demandas reducidas de recursos. MobiLlama es un diseño de SLM que parte de un modelo más grande y aplica un esquema cuidadoso de compartición de parámetros para reducir tanto el costo de preentrenamiento como el de despliegue. Nuestro trabajo no solo busca cerrar la brecha en los SLMs de código abierto, sino que también garantiza una transparencia total, donde el pipeline completo de datos de entrenamiento, el código de entrenamiento, los pesos del modelo y más de 300 puntos de control, junto con los códigos de evaluación, están disponibles en: https://github.com/mbzuai-oryx/MobiLlama.
Los entornos comparativos (por ejemplo, elección por pares, clasificación por listas) han sido adoptados por una amplia gama de estudios subjetivos para la evaluación de la calidad de imágenes (IQA), ya que estandarizan inherentemente los criterios de evaluación entre diferentes observadores y ofrecen respuestas más claras. En este trabajo, extendemos las capacidades de los modelos multimodales grandes emergentes (LMMs) para avanzar aún más en la comparación de calidad visual hacia entornos abiertos, que 1) pueden responder a preguntas de rango abierto sobre comparación de calidad; 2) pueden proporcionar razonamientos detallados más allá de respuestas directas. Para ello, proponemos el Co-Instruct. Para entrenar este comparador de calidad visual de código abierto y de rango abierto, el primero en su tipo, recopilamos el conjunto de datos Co-Instruct-562K, proveniente de dos fuentes: (a) descripciones de calidad de imágenes únicas fusionadas con LMM, (b) respuestas del "profesor" GPT-4V sobre datos no etiquetados. Además, para evaluar mejor este entorno, proponemos el MICBench, el primer punto de referencia en comparación de múltiples imágenes para LMMs. Demostramos que Co-Instruct no solo logra un 30% más de precisión superior que los LMMs de código abierto más avanzados, sino que también supera a GPT-4V (su profesor), tanto en puntos de referencia relacionados existentes como en el MICBench propuesto. Nuestro modelo está publicado en https://huggingface.co/q-future/co-instruct.
A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se vuelven cada vez más prevalentes en muchas aplicaciones del mundo real, comprender y mejorar su robustez frente a las entradas de los usuarios es de suma importancia. Los métodos existentes para identificar indicaciones adversas tienden a centrarse en dominios específicos, carecen de diversidad o requieren anotaciones humanas extensas. Para abordar estas limitaciones, presentamos Rainbow Teaming, un enfoque novedoso para producir una colección diversa de indicaciones adversas. Rainbow Teaming plantea la generación de indicaciones adversas como un problema de calidad-diversidad y utiliza búsqueda abierta para generar indicaciones que sean tanto efectivas como diversas. Puede descubrir vulnerabilidades de un modelo en una amplia gama de dominios, incluyendo, en este trabajo, seguridad, respuesta a preguntas y ciberseguridad. También demostramos que el ajuste fino con datos sintéticos generados por Rainbow Teaming mejora la seguridad de los LLMs de vanguardia sin perjudicar sus capacidades generales y su utilidad, allanando el camino hacia la automejora abierta.