Artículos de investigación en IA seleccionados diariamente con traducciones
La reproducibilidad y transparencia de los modelos de lenguaje grandes son cruciales para avanzar en la investigación abierta, garantizar la confiabilidad de los resultados y permitir investigaciones sobre sesgos en los datos y modelos, así como riesgos potenciales. Con este fin, presentamos OpenELM, un modelo de lenguaje abierto de última generación. OpenELM utiliza una estrategia de escalado por capas para asignar eficientemente los parámetros dentro de cada capa del modelo transformador, lo que resulta en una mayor precisión. Por ejemplo, con un presupuesto de aproximadamente mil millones de parámetros, OpenELM muestra una mejora del 2.36% en precisión en comparación con OLMo, mientras requiere 2 veces menos tokens de preentrenamiento. A diferencia de prácticas anteriores que solo proporcionan pesos del modelo y código de inferencia, y preentrenan en conjuntos de datos privados, nuestra publicación incluye el marco completo para el entrenamiento y evaluación del modelo de lenguaje en conjuntos de datos públicamente disponibles, incluyendo registros de entrenamiento, múltiples puntos de control y configuraciones de preentrenamiento. También publicamos código para convertir modelos a la biblioteca MLX para inferencia y ajuste fino en dispositivos Apple. Esta publicación integral tiene como objetivo empoderar y fortalecer a la comunidad de investigación abierta, allanando el camino para futuros esfuerzos de investigación abierta. Nuestro código fuente, junto con los pesos del modelo preentrenado y las recetas de entrenamiento, está disponible en https://github.com/apple/corenet. Además, los modelos \model se pueden encontrar en HuggingFace en: https://huggingface.co/apple/OpenELM.
Las Mezclas Escasas de Expertos (SMoE, por sus siglas en inglés) escalan la capacidad del modelo sin aumentos significativos en los costos de entrenamiento e inferencia, pero presentan los siguientes dos problemas: (1) Baja activación de expertos, donde solo un pequeño subconjunto de expertos se activa para la optimización. (2) Falta de capacidades analíticas detalladas para múltiples conceptos semánticos dentro de tokens individuales. Proponemos la Mezcla de Expertos de Múltiples Cabezas (MH-MoE), que emplea un mecanismo de múltiples cabezas para dividir cada token en múltiples sub-tokens. Estos sub-tokens son asignados y procesados por un conjunto diverso de expertos en paralelo, y luego se reintegran sin problemas en la forma original del token. El mecanismo de múltiples cabezas permite que el modelo atienda colectivamente información de varios espacios de representación dentro de diferentes expertos, mientras que aumenta significativamente la activación de expertos, profundizando así la comprensión del contexto y mitigando el sobreajuste. Además, nuestro MH-MoE es sencillo de implementar y se desacopla de otros métodos de optimización de SMoE, lo que facilita su integración con otros modelos SMoE para mejorar el rendimiento. Los resultados experimentales extensos en tres tareas: modelado de lenguaje centrado en inglés, modelado de lenguaje multilingüe y tareas de modelado multimodal enmascarado, demuestran la efectividad de MH-MoE.
Los recientes avances en la síntesis de voz a gran escala con capacidad zero-shot han sido impulsados significativamente por los modelos de lenguaje y los modelos de difusión. Sin embargo, el proceso de generación de ambos métodos es lento y computacionalmente intensivo. La síntesis eficiente de voz utilizando un presupuesto computacional más reducido para alcanzar una calidad comparable a trabajos previos sigue siendo un desafío importante. En este artículo, presentamos FlashSpeech, un sistema de síntesis de voz a gran escala con capacidad zero-shot que reduce el tiempo de inferencia a aproximadamente un 5% en comparación con trabajos anteriores. FlashSpeech se basa en el modelo de consistencia latente y aplica un novedoso enfoque de entrenamiento de consistencia adversarial que puede entrenarse desde cero sin necesidad de un modelo de difusión preentrenado como guía. Además, un nuevo módulo generador de prosodia mejora la diversidad de la prosodia, haciendo que el ritmo del habla suene más natural. Los procesos de generación de FlashSpeech pueden lograrse eficientemente con uno o dos pasos de muestreo, manteniendo una alta calidad de audio y una gran similitud con la señal de audio de referencia para la generación de voz zero-shot. Nuestros resultados experimentales demuestran el rendimiento superior de FlashSpeech. En particular, FlashSpeech puede ser aproximadamente 20 veces más rápido que otros sistemas de síntesis de voz zero-shot, manteniendo un rendimiento comparable en términos de calidad de voz y similitud. Además, FlashSpeech demuestra su versatilidad al realizar eficientemente tareas como conversión de voz, edición de habla y muestreo diverso de voz. Las muestras de audio pueden encontrarse en https://flashspeech.github.io/.
Este informe técnico presenta a Pegasus-1, un modelo de lenguaje multimodal especializado en la comprensión e interacción con contenido de video a través de lenguaje natural. Pegasus-1 está diseñado para abordar los desafíos únicos que plantean los datos de video, como la interpretación de información espacio-temporal, con el fin de ofrecer una comprensión matizada del contenido de video en diversas duraciones. Este informe técnico ofrece una visión general de la arquitectura de Pegasus-1, sus estrategias de entrenamiento y su rendimiento en benchmarks de conversación sobre video, respuesta a preguntas de video en modo zero-shot y resumen de video. También exploramos las características cualitativas de Pegasus-1, demostrando tanto sus capacidades como sus limitaciones, para proporcionar a los lectores una visión equilibrada de su estado actual y su dirección futura.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado avances notables en el procesamiento de contextos extensos, donde la caché Clave-Valor (KV) desempeña un papel crucial para mejorar su rendimiento. Sin embargo, el crecimiento de la caché KV en respuesta al aumento de la longitud de la entrada plantea desafíos para la eficiencia de memoria y tiempo. Para abordar este problema, este artículo presenta SnapKV, un enfoque innovador y libre de ajuste fino que minimiza eficientemente el tamaño de la caché KV mientras mantiene un rendimiento comparable en aplicaciones del mundo real. Descubrimos que cada cabeza de atención en el modelo se enfoca consistentemente en características específicas de atención del prompt durante la generación. Además, este patrón robusto puede obtenerse a partir de una ventana de `observación' ubicada al final de los prompts. Basándonos en esta idea, SnapKV comprime automáticamente las cachés KV seleccionando posiciones importantes agrupadas para cada cabeza de atención. Nuestro enfoque reduce significativamente la sobrecarga computacional y la huella de memoria al procesar secuencias de entrada largas. Específicamente, SnapKV logra una velocidad de decodificación constante con un aumento de 3.6x en la velocidad de generación y una mejora de 8.2x en la eficiencia de memoria en comparación con la línea base al procesar entradas de 16K tokens. Al mismo tiempo, mantiene un rendimiento comparable a los modelos de referencia en 16 conjuntos de datos de secuencias largas. Además, SnapKV puede procesar hasta 380K tokens de contexto en una sola GPU A100-80GB utilizando la implementación de HuggingFace con cambios mínimos, mostrando solo una caída insignificante en la precisión en la prueba Needle-in-a-Haystack. Estudios adicionales sugieren el potencial de SnapKV para aplicaciones prácticas.
Los modelos de difusión (DMs) se han consolidado como el enfoque de modelado generativo más avanzado en el dominio visual y más allá. Un inconveniente crucial de los DMs es su lenta velocidad de muestreo, que depende de muchas evaluaciones secuenciales de funciones a través de grandes redes neuronales. El muestreo de los DMs puede verse como la resolución de una ecuación diferencial mediante un conjunto discretizado de niveles de ruido conocidos como el programa de muestreo. Si bien trabajos anteriores se centraron principalmente en derivar solucionadores eficientes, se ha prestado poca atención a encontrar programas de muestreo óptimos, y toda la literatura se basa en heurísticas diseñadas manualmente. En este trabajo, por primera vez, proponemos un enfoque general y fundamentado para optimizar los programas de muestreo de los DMs con el fin de obtener resultados de alta calidad, denominado Align Your Steps. Aprovechamos métodos del cálculo estocástico y encontramos programas óptimos específicos para diferentes solucionadores, DMs entrenados y conjuntos de datos. Evaluamos nuestro nuevo enfoque en varios puntos de referencia de síntesis de imágenes, videos y datos 2D de juguete, utilizando una variedad de muestreadores diferentes, y observamos que nuestros programas optimizados superan a los programas diseñados manualmente en casi todos los experimentos. Nuestro método demuestra el potencial no explotado de la optimización del programa de muestreo, especialmente en el régimen de síntesis con pocos pasos.
Numerosos trabajos existentes han analizado las capacidades de la arquitectura transformer describiendo su capacidad de representación mediante modelos formales de computación. Sin embargo, el enfoque hasta ahora ha estado en analizar la arquitectura en términos de aceptación de lenguajes. Sostenemos que este es un problema poco adecuado en el estudio de los modelos de lenguaje (LMs), que por definición son distribuciones de probabilidad sobre cadenas. En este artículo, nos centramos en la relación entre los LMs transformer y los LMs n-gram, una clase de modelos de lenguaje simple y históricamente relevante. Demostramos que los LMs transformer que utilizan mecanismos de atención dura o dispersa pueden representar exactamente cualquier LM n-gram, lo que nos proporciona un límite inferior concreto sobre su capacidad de representación probabilística. Esto constituye un primer paso hacia la comprensión de los mecanismos que los LMs transformer pueden utilizar para representar distribuciones de probabilidad sobre cadenas.