HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

10 papers found

ChatMusician: Comprensión y generación de música intrínseca con modelos de lenguaje grandes (LLM)
ChatMusician: Understanding and Generating Music Intrinsically with LLM

Feb 25

ByRuibin Yuan, Hanfeng Lin, Yi Wang, Zeyue Tian, Shangda Wu, Tianhao Shen, Ge Zhang, Yuhang Wu, Cong Liu, Ziya Zhou, Ziyang Ma, Liumeng Xue, Ziyu Wang, Qin Liu, Tianyu Zheng, Yizhi Li, Yinghao Ma, Yiming Liang, Xiaowei Chi, Ruibo Liu, Zili Wang, Pengfei Li, Jingcheng Wu, Chenghua Lin, Qifeng Liu, Tao Jiang, Wenhao Huang, Wenhu Chen, Emmanouil Benetos, Jie Fu, Gus Xia, Roger Dannenberg, Wei Xue, Shiyin Kang, Yike Guo

Si bien los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) demuestran capacidades impresionantes en la generación de texto, encontramos que su habilidad aún no se ha generalizado a la música, el lenguaje creativo de la humanidad. Presentamos ChatMusician, un LLM de código abierto que integra habilidades musicales intrínsecas. Se basa en el preentrenamiento continuo y el ajuste fino de LLaMA2 en una representación musical compatible con texto, la notación ABC, donde la música es tratada como un segundo lenguaje. ChatMusician puede comprender y generar música con un tokenizador de texto puro, sin necesidad de estructuras neuronales multimodales o tokenizadores externos. Curiosamente, dotar de habilidades musicales no perjudica las habilidades lingüísticas, incluso logrando un puntaje ligeramente superior en MMLU. Nuestro modelo es capaz de componer música bien estructurada y de larga duración, condicionada por textos, acordes, melodías, motivos, formas musicales, etc., superando la línea base de GPT-4. En nuestro meticulosamente elaborado benchmark de comprensión musical a nivel universitario, MusicTheoryBench, ChatMusician supera a LLaMA2 y GPT-3.5 en un entorno de cero disparos por un margen notable. Nuestro trabajo revela que los LLMs pueden ser un excelente compresor para la música, pero aún queda un territorio significativo por conquistar. Publicamos nuestro corpus de lenguaje musical de 4B tokens, MusicPile, el benchmark recopilado MusicTheoryBench, el código, el modelo y la demostración en GitHub.

Informe Técnico de Nemotron-4 15B
Nemotron-4 15B Technical Report

Feb 26

ByJupinder Parmar, Shrimai Prabhumoye, Joseph Jennings, Mostofa Patwary, Sandeep Subramanian, Dan Su, Chen Zhu, Deepak Narayanan, Aastha Jhunjhunwala, Ayush Dattagupta, Vibhu Jawa, Jiwei Liu, Ameya Mahabaleshwarkar, Osvald Nitski, Annika Brundyn, James Maki, Miguel Martinez, Jiaxuan You, John Kamalu, Patrick LeGresley, Denys Fridman, Jared Casper, Ashwath Aithal, Oleksii Kuchaiev, Mohammad Shoeybi, Jonathan Cohen, Bryan Catanzaro

Presentamos Nemotron-4 15B, un modelo lingüístico grande multilingüe de 15 mil millones de parámetros entrenado con 8 billones de tokens de texto. Nemotron-4 15B demuestra un rendimiento sólido al ser evaluado en tareas en inglés, multilingües y de programación: supera a todos los modelos abiertos de tamaño similar en 4 de las 7 áreas de evaluación descendente y logra un desempeño competitivo frente a los modelos abiertos líderes en las restantes. En particular, Nemotron-4 15B exhibe las mejores capacidades multilingües entre todos los modelos de tamaño similar, superando incluso a modelos más de cuatro veces más grandes y aquellos especializados explícitamente en tareas multilingües.

FuseChat: Fusión de Conocimiento en Modelos de Chat
FuseChat: Knowledge Fusion of Chat Models

Feb 25

ByFanqi Wan, Ziyi Yang, Longguang Zhong, Xiaojun Quan, Xinting Huang, Wei Bi

Si bien entrenar grandes modelos de lenguaje (LLMs) desde cero puede efectivamente resultar en modelos con capacidades y fortalezas distintivas, este enfoque conlleva costos sustanciales y puede generar redundancia en las competencias. Una estrategia alternativa es combinar LLMs existentes para crear un LLM más robusto, reduciendo así la necesidad de un costoso preentrenamiento. Sin embargo, debido a las diversas arquitecturas de los LLMs, la fusión directa de parámetros resulta inviable. Recientemente, FuseLLM introdujo el concepto de fusión de conocimiento para transferir el conocimiento colectivo de múltiples LLMs con estructuras variadas a un LLM objetivo mediante un entrenamiento continuo ligero. En este informe, ampliamos la escalabilidad y flexibilidad del marco FuseLLM para lograr la fusión de LLMs de chat, dando lugar a FuseChat. FuseChat consta de dos etapas principales. En primer lugar, realizamos la fusión de conocimiento para LLMs fuente con estructuras y escalas variadas, obteniendo múltiples LLMs objetivo de estructura y tamaño idénticos mediante un ajuste fino ligero. Luego, estos LLMs objetivo se fusionan en el espacio de parámetros, donde proponemos un método novedoso para determinar los pesos de fusión basado en la relación de variación de las matrices de parámetros antes y después del ajuste fino. Validamos nuestro enfoque utilizando tres destacados LLMs de chat con arquitecturas y escalas diversas, a saber, NH2-Mixtral-8x7B, NH2-Solar-10.7B y OpenChat-3.5-7B. Los resultados experimentales en diversos dominios de chat demuestran la superioridad de \textsc{FuseChat-7B} en un amplio espectro de LLMs de chat en escalas de 7B y 34B, superando incluso a GPT-3.5 (marzo) y acercándose a Mixtral-8x7B-Instruct. Nuestro código, pesos del modelo y datos están disponibles públicamente en https://github.com/fanqiwan/FuseLLM.

MegaScale: Escalando el Entrenamiento de Modelos de Lenguaje a Gran Escala a Más de 10,000 GPUs
MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

Feb 23

ByZiheng Jiang, Haibin Lin, Yinmin Zhong, Qi Huang, Yangrui Chen, Zhi Zhang, Yanghua Peng, Xiang Li, Cong Xie, Shibiao Nong, Yulu Jia, Sun He, Hongmin Chen, Zhihao Bai, Qi Hou, Shipeng Yan, Ding Zhou, Yiyao Sheng, Zhuo Jiang, Haohan Xu, Haoran Wei, Zhang Zhang, Pengfei Nie, Leqi Zou, Sida Zhao, Liang Xiang, Zherui Liu, Zhe Li, Xiaoying Jia, Jianxi Ye, Xin Jin, Xin Liu

Presentamos el diseño, implementación y experiencia de ingeniería en la construcción y despliegue de MegaScale, un sistema de producción para entrenar modelos de lenguaje grandes (LLMs) a una escala de más de 10,000 GPUs. Entrenar LLMs a esta escala presenta desafíos sin precedentes en cuanto a la eficiencia y estabilidad del entrenamiento. Adoptamos un enfoque de pila completa que co-diseña los componentes algorítmicos y del sistema, abarcando el diseño de bloques del modelo y optimizadores, la superposición de computación y comunicación, la optimización de operadores, la canalización de datos y el ajuste del rendimiento de la red. Mantener una alta eficiencia durante todo el proceso de entrenamiento (es decir, estabilidad) es una consideración importante en producción, dado la extensa duración de los trabajos de entrenamiento de LLMs. Muchos problemas de estabilidad difíciles solo surgen a gran escala, y la observabilidad profunda es clave para abordarlos. Desarrollamos un conjunto de herramientas de diagnóstico para monitorear componentes del sistema y eventos en lo profundo de la pila, identificar causas raíz y derivar técnicas efectivas para lograr tolerancia a fallos y mitigar los rezagados. MegaScale logra un 55.2% de Utilización de FLOPs del Modelo (MFU) al entrenar un modelo LLM de 175B en 12,288 GPUs, mejorando el MFU en 1.34x en comparación con Megatron-LM. Compartimos nuestra experiencia operativa en la identificación y corrección de fallos y rezagados. Esperamos que, al articular los problemas y compartir nuestra experiencia desde una perspectiva de sistemas, este trabajo pueda inspirar futuras investigaciones en sistemas de LLMs.

Composición Multi-LoRA para Generación de Imágenes
Multi-LoRA Composition for Image Generation

Feb 26

ByMing Zhong, Yelong Shen, Shuohang Wang, Yadong Lu, Yizhu Jiao, Siru Ouyang, Donghan Yu, Jiawei Han, Weizhu Chen

La Adaptación de Bajo Rango (LoRA, por sus siglas en inglés) se utiliza ampliamente en modelos de texto a imagen para la representación precisa de elementos específicos, como personajes distintivos o estilos únicos en imágenes generadas. Sin embargo, los métodos existentes enfrentan desafíos al componer múltiples LoRAs de manera efectiva, especialmente a medida que aumenta el número de LoRAs que deben integrarse, lo que dificulta la creación de imágenes complejas. En este artículo, estudiamos la composición multi-LoRA desde una perspectiva centrada en la decodificación. Presentamos dos métodos que no requieren entrenamiento: LoRA Switch, que alterna entre diferentes LoRAs en cada paso de eliminación de ruido, y LoRA Composite, que incorpora simultáneamente todas las LoRAs para guiar una síntesis de imágenes más cohesionada. Para evaluar los enfoques propuestos, establecemos ComposLoRA, un nuevo banco de pruebas integral como parte de esta investigación. Este incluye una amplia gama de categorías de LoRA con 480 conjuntos de composición. Utilizando un marco de evaluación basado en GPT-4V, nuestros resultados demuestran una mejora clara en el rendimiento con nuestros métodos en comparación con la línea base predominante, particularmente evidente al aumentar el número de LoRAs en una composición.

StructLM: Hacia la construcción de modelos generalistas para el anclaje de conocimiento estructurado
StructLM: Towards Building Generalist Models for Structured Knowledge Grounding

Feb 26

ByAlex Zhuang, Ge Zhang, Tianyu Zheng, Xinrun Du, Junjie Wang, Weiming Ren, Stephen W. Huang, Jie Fu, Xiang Yue, Wenhu Chen

Las fuentes de datos estructurados, como tablas, gráficos y bases de datos, son fuentes de conocimiento omnipresentes. A pesar de las capacidades demostradas por los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en texto plano, su competencia para interpretar y utilizar datos estructurados sigue siendo limitada. Nuestra investigación revela una deficiencia notable en la capacidad de los LLMs para procesar datos estructurados; por ejemplo, ChatGPT se queda atrás respecto a los modelos de última generación (SoTA, por sus siglas en inglés) en un promedio del 35%. Para mejorar las capacidades de fundamentación de conocimiento estructurado (SKG, por sus siglas en inglés) en los LLMs, hemos desarrollado un conjunto de datos integral para ajuste por instrucciones que comprende 1.1 millones de ejemplos. Utilizando este conjunto de datos, entrenamos una serie de modelos, denominados StructLM, basados en la arquitectura Code-LLaMA, que van desde 7B hasta 34B parámetros. Nuestra serie StructLM supera a los modelos específicos de tareas en 14 de los 18 conjuntos de datos evaluados y establece nuevos logros SoTA en 7 tareas de SKG. Además, StructLM demuestra una generalización excepcional en 6 nuevas tareas de SKG. Contrario a las expectativas, observamos que escalar el tamaño del modelo ofrece beneficios marginales, ya que StructLM-34B muestra solo mejoras leves respecto a StructLM-7B. Esto sugiere que la fundamentación de conocimiento estructurado sigue siendo una tarea desafiante y requiere un diseño más innovador para alcanzar un nuevo nivel.

¿Realizan los Modelos de Lenguaje de Gran Escala Razonamiento de Múltiples Saltos de Manera Latente?
Do Large Language Models Latently Perform Multi-Hop Reasoning?

Feb 26

BySohee Yang, Elena Gribovskaya, Nora Kassner, Mor Geva, Sebastian Riedel

Estudiamos si los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) realizan de manera latente razonamiento de múltiples saltos con indicaciones complejas como "La madre del cantante de 'Superstition' es". Buscamos evidencia de una vía de razonamiento latente en la que un LLM (1) identifica de manera latente "el cantante de 'Superstition'" como Stevie Wonder, la entidad puente, y (2) utiliza su conocimiento sobre la madre de Stevie Wonder para completar la indicación. Analizamos estos dos saltos de manera individual y consideramos su co-ocurrencia como indicativa de razonamiento de múltiples saltos latente. Para el primer salto, probamos si modificar la indicación para mencionar indirectamente la entidad puente en lugar de cualquier otra entidad aumenta el recuerdo interno del LLM sobre la entidad puente. Para el segundo salto, evaluamos si aumentar este recuerdo hace que el LLM utilice mejor lo que sabe sobre la entidad puente. Encontramos evidencia sólida de razonamiento de múltiples saltos latente para indicaciones de ciertos tipos de relaciones, con la vía de razonamiento utilizada en más del 80% de las indicaciones. Sin embargo, la utilización es altamente contextual, variando entre diferentes tipos de indicaciones. Además, en promedio, la evidencia para el segundo salto y el recorrido completo de múltiples saltos es más bien moderada y solo sustancial para el primer salto. Asimismo, encontramos una clara tendencia de escalamiento con el aumento del tamaño del modelo para el primer salto del razonamiento, pero no para el segundo salto. Nuestros hallazgos experimentales sugieren desafíos y oportunidades potenciales para el desarrollo y aplicaciones futuras de los LLMs.

MobiLlama: Hacia un GPT completamente transparente, preciso y ligero
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT

Feb 26

ByOmkar Thawakar, Ashmal Vayani, Salman Khan, Hisham Cholakal, Rao M. Anwer, Michael Felsberg, Tim Baldwin, Eric P. Xing, Fahad Shahbaz Khan

"Cuanto más grande, mejor" ha sido la tendencia predominante en el desarrollo reciente de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Sin embargo, los LLMs no se adaptan bien a escenarios que requieren procesamiento en el dispositivo, eficiencia energética, baja huella de memoria y eficiencia en las respuestas. Estos requisitos son cruciales para la privacidad, la seguridad y el despliegue sostenible. Este artículo explora el paradigma de "menos es más" abordando el desafío de diseñar Modelos de Lenguaje Pequeños (SLMs, por sus siglas en inglés) precisos pero eficientes para dispositivos con recursos limitados. Nuestra principal contribución es la introducción de un SLM de código abierto, completamente transparente y preciso, con 0.5 mil millones (0.5B) de parámetros, llamado MobiLlama, que atiende a las necesidades específicas de la computación con recursos limitados, enfatizando un rendimiento mejorado con demandas reducidas de recursos. MobiLlama es un diseño de SLM que parte de un modelo más grande y aplica un esquema cuidadoso de compartición de parámetros para reducir tanto el costo de preentrenamiento como el de despliegue. Nuestro trabajo no solo busca cerrar la brecha en los SLMs de código abierto, sino que también garantiza una transparencia total, donde el pipeline completo de datos de entrenamiento, el código de entrenamiento, los pesos del modelo y más de 300 puntos de control, junto con los códigos de evaluación, están disponibles en: https://github.com/mbzuai-oryx/MobiLlama.

Hacia la Comparación Abierta de Calidad Visual
Towards Open-ended Visual Quality Comparison

Feb 26

ByHaoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, Xiaohong Liu, Guangtao Zhai, Shiqi Wang, Weisi Lin

Los entornos comparativos (por ejemplo, elección por pares, clasificación por listas) han sido adoptados por una amplia gama de estudios subjetivos para la evaluación de la calidad de imágenes (IQA), ya que estandarizan inherentemente los criterios de evaluación entre diferentes observadores y ofrecen respuestas más claras. En este trabajo, extendemos las capacidades de los modelos multimodales grandes emergentes (LMMs) para avanzar aún más en la comparación de calidad visual hacia entornos abiertos, que 1) pueden responder a preguntas de rango abierto sobre comparación de calidad; 2) pueden proporcionar razonamientos detallados más allá de respuestas directas. Para ello, proponemos el Co-Instruct. Para entrenar este comparador de calidad visual de código abierto y de rango abierto, el primero en su tipo, recopilamos el conjunto de datos Co-Instruct-562K, proveniente de dos fuentes: (a) descripciones de calidad de imágenes únicas fusionadas con LMM, (b) respuestas del "profesor" GPT-4V sobre datos no etiquetados. Además, para evaluar mejor este entorno, proponemos el MICBench, el primer punto de referencia en comparación de múltiples imágenes para LMMs. Demostramos que Co-Instruct no solo logra un 30% más de precisión superior que los LMMs de código abierto más avanzados, sino que también supera a GPT-4V (su profesor), tanto en puntos de referencia relacionados existentes como en el MICBench propuesto. Nuestro modelo está publicado en https://huggingface.co/q-future/co-instruct.

Rainbow Teaming: Generación Abierta de Prompts Adversarios Diversos
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts

Feb 26

ByMikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rocktäschel, Roberta Raileanu

A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se vuelven cada vez más prevalentes en muchas aplicaciones del mundo real, comprender y mejorar su robustez frente a las entradas de los usuarios es de suma importancia. Los métodos existentes para identificar indicaciones adversas tienden a centrarse en dominios específicos, carecen de diversidad o requieren anotaciones humanas extensas. Para abordar estas limitaciones, presentamos Rainbow Teaming, un enfoque novedoso para producir una colección diversa de indicaciones adversas. Rainbow Teaming plantea la generación de indicaciones adversas como un problema de calidad-diversidad y utiliza búsqueda abierta para generar indicaciones que sean tanto efectivas como diversas. Puede descubrir vulnerabilidades de un modelo en una amplia gama de dominios, incluyendo, en este trabajo, seguridad, respuesta a preguntas y ciberseguridad. También demostramos que el ajuste fino con datos sintéticos generados por Rainbow Teaming mejora la seguridad de los LLMs de vanguardia sin perjudicar sus capacidades generales y su utilidad, allanando el camino hacia la automejora abierta.

MegaScale: Escalando el Entrenamiento de Modelos de Lenguaje a Gran Escala a Más de 10,000 GPUs
MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

Feb 23