Artículos de investigación en IA seleccionados diariamente con traducciones
En los últimos años, hemos presenciado un rápido desarrollo de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). A pesar de su gran capacidad en muchas tareas de comprensión del lenguaje, la pesada carga computacional limita en gran medida la aplicación de los LLMs, especialmente cuando se necesita implementarlos en dispositivos de borde. En este artículo, proponemos un algoritmo de adaptación de bajo rango consciente de la cuantización (QA-LoRA). La motivación radica en los grados de libertad desequilibrados de la cuantización y la adaptación, y la solución consiste en utilizar operadores por grupos que aumentan el grado de libertad de la cuantización mientras disminuyen el de la adaptación. QA-LoRA se implementa fácilmente con unas pocas líneas de código y dota al LoRA original de dos capacidades: (i) durante el ajuste fino, los pesos del LLM se cuantizan (por ejemplo, en INT4) para reducir el uso de tiempo y memoria; (ii) después del ajuste fino, el LLM y los pesos auxiliares se integran naturalmente en un modelo cuantizado sin pérdida de precisión. Aplicamos QA-LoRA a las familias de modelos LLaMA y LLaMA2 y validamos su efectividad en diferentes conjuntos de datos de ajuste fino y escenarios posteriores. El código estará disponible en https://github.com/yuhuixu1993/qa-lora.
Este trabajo tiene como objetivo aprender un modelo generativo de texto a video (T2V) de alta calidad aprovechando un modelo preentrenado de texto a imagen (T2I) como base. Es una tarea altamente deseable pero desafiante lograr simultáneamente a) la síntesis de videos visualmente realistas y temporalmente coherentes, mientras b) se preserva la fuerte naturaleza creativa de generación del modelo T2I preentrenado. Con este fin, proponemos LaVie, un marco integrado de generación de video que opera sobre modelos de difusión latente de video en cascada, compuesto por un modelo base T2V, un modelo de interpolación temporal y un modelo de superresolución de video. Nuestras ideas clave son dos: 1) Revelamos que la incorporación de auto-atenciones temporales simples, junto con codificación posicional rotatoria, captura adecuadamente las correlaciones temporales inherentes a los datos de video. 2) Además, validamos que el proceso de ajuste fino conjunto de imagen-video juega un papel fundamental en la producción de resultados de alta calidad y creativos. Para mejorar el rendimiento de LaVie, contribuimos con un conjunto de datos de video completo y diverso llamado Vimeo25M, que consta de 25 millones de pares texto-video que priorizan la calidad, la diversidad y el atractivo estético. Experimentos extensos demuestran que LaVie alcanza un rendimiento de vanguardia tanto cuantitativa como cualitativamente. Además, mostramos la versatilidad de los modelos preentrenados de LaVie en diversas aplicaciones de generación de videos largos y síntesis de videos personalizados.
El cómputo en un modelo de lenguaje grande (LLM) basado en Transformers típico puede caracterizarse por el tamaño del lote, la dimensión oculta, el número de capas y la longitud de la secuencia. Hasta ahora, los trabajos de sistemas para acelerar el entrenamiento de LLM se han centrado en las primeras tres dimensiones: paralelismo de datos para el tamaño del lote, paralelismo tensorial para el tamaño oculto y paralelismo de pipeline para la profundidad del modelo o las capas. Estas formas de paralelismo ampliamente estudiadas no están dirigidas ni optimizadas para modelos de Transformers con secuencias largas. Dadas las necesidades prácticas de aplicaciones para LLM con secuencias largas, se está prestando renovada atención al paralelismo de secuencias. Sin embargo, los trabajos existentes en paralelismo de secuencias están limitados por la ineficiencia en la comunicación de memoria, lo que restringe su escalabilidad a modelos grandes con secuencias largas. En este trabajo, presentamos DeepSpeed-Ulysses, una metodología novedosa, portátil y efectiva para habilitar un entrenamiento de LLM altamente eficiente y escalable con longitudes de secuencia extremadamente largas. DeepSpeed-Ulysses, en su núcleo, particiona los datos de entrada a lo largo de la dimensión de la secuencia y emplea una comunicación colectiva eficiente de tipo all-to-all para el cálculo de atención. El análisis teórico de la comunicación muestra que, mientras otros métodos incurren en sobrecarga de comunicación a medida que aumenta la longitud de la secuencia, DeepSpeed-Ulysses mantiene un volumen de comunicación constante cuando la longitud de la secuencia y los dispositivos de cómputo se incrementan proporcionalmente. Además, las evaluaciones experimentales muestran que DeepSpeed-Ulysses entrena 2.5 veces más rápido con una longitud de secuencia 4 veces mayor que el método de referencia SOTA existente.
Los recientes avances en métodos de aprendizaje profundo, como los LLM y los modelos de difusión, han generado la necesidad de mejorar los métodos de cuantización que puedan satisfacer las demandas computacionales de estas arquitecturas modernas mientras mantienen la precisión. Con este objetivo, estudiamos las ventajas de los formatos de datos FP8 para la cuantización post-entrenamiento en 75 arquitecturas de red únicas que abarcan una amplia gama de tareas, incluyendo traducción automática, modelado de lenguaje, generación de texto, clasificación de imágenes, generación y segmentación. Examinamos tres representaciones diferentes de FP8 (E5M2, E4M3 y E3M4) para estudiar los efectos de distintos grados de equilibrio entre el rango dinámico y la precisión en la exactitud del modelo. Basándonos en nuestro extenso estudio, desarrollamos un flujo de trabajo de cuantización que se generaliza a través de diferentes arquitecturas de red. Nuestros resultados empíricos muestran que los formatos FP8 superan a INT8 en múltiples aspectos, incluyendo la cobertura de carga de trabajo (92.64% vs. 65.87%), la precisión del modelo y la idoneidad para un rango más amplio de operaciones. Además, nuestros hallazgos sugieren que E4M3 es más adecuado para modelos de NLP, mientras que E3M4 tiene un rendimiento ligeramente mejor que E4M3 en tareas de visión por computadora. El código está disponible públicamente en Intel Neural Compressor: https://github.com/intel/neural-compressor.
Investigamos el comportamiento interno de los Modelos de Lenguaje de Gran Escala (LLMs) basados en Transformers cuando generan texto factualmente incorrecto. Proponemos modelar consultas factuales como Problemas de Satisfacción de Restricciones y utilizamos este marco para estudiar cómo el modelo interactúa internamente con las restricciones factuales. Específicamente, descubrimos una fuerte relación positiva entre la atención del modelo a los tokens de restricción y la precisión factual de sus respuestas. En nuestra colección curada de 11 conjuntos de datos con más de 40,000 indicaciones, estudiamos la tarea de predecir errores factuales con la familia Llama-2 en todas sus escalas (7B, 13B, 70B). Proponemos SAT Probe, un método que analiza los patrones de auto-atención, capaz de predecir la satisfacción de restricciones y errores factuales, permitiendo la identificación temprana de errores. El enfoque y los hallazgos demuestran cómo el entendimiento mecanicista de la factualidad en LLMs puede mejorar la confiabilidad.