Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos LongLoRA, un enfoque eficiente de ajuste fino que extiende los tamaños de contexto de los modelos de lenguaje grandes (LLMs) preentrenados, con un coste computacional limitado. Normalmente, entrenar LLMs con tamaños de contexto largos es computacionalmente costoso, requiriendo horas extensas de entrenamiento y recursos de GPU. Por ejemplo, entrenar con un contexto de longitud 8192 necesita 16 veces más costes computacionales en las capas de auto-atención que con un contexto de 2048. En este artículo, aceleramos la extensión de contexto de los LLMs en dos aspectos. Por un lado, aunque se necesita atención global densa durante la inferencia, el ajuste fino del modelo puede realizarse de manera efectiva y eficiente mediante atención local dispersa. La atención corta por desplazamiento propuesta permite efectivamente la extensión del contexto, lo que conduce a un ahorro computacional no trivial con un rendimiento similar al ajuste fino con atención estándar. En particular, puede implementarse con solo dos líneas de código durante el entrenamiento, mientras que es opcional en la inferencia. Por otro lado, revisamos el régimen de ajuste fino eficiente en parámetros para la expansión de contexto. Notablemente, encontramos que LoRA para la extensión de contexto funciona bien bajo la premisa de embeddings y normalización entrenables. LongLoRA demuestra resultados empíricos sólidos en varias tareas en modelos LLaMA2 desde 7B/13B hasta 70B. LongLoRA adopta LLaMA2 7B desde un contexto de 4k a 100k, o LLaMA2 70B a 32k en una sola máquina con 8x A100. LongLoRA extiende el contexto de los modelos mientras mantiene sus arquitecturas originales, y es compatible con la mayoría de las técnicas existentes, como FlashAttention-2. Además, para hacer LongLoRA práctico, recopilamos un conjunto de datos, LongQA, para el ajuste fino supervisado. Contiene más de 3k pares de preguntas-respuestas de contexto largo.
Transformer apareció por primera vez en el campo del procesamiento del lenguaje natural y posteriormente se trasladó al dominio de la visión por computadora, donde demuestra un rendimiento excepcional en tareas de visión. Sin embargo, recientemente, Retentive Network (RetNet) ha surgido como una arquitectura con el potencial de reemplazar a Transformer, atrayendo una atención generalizada en la comunidad de PLN. Por ello, nos planteamos la pregunta de si trasladar la idea de RetNet a la visión también podría ofrecer un rendimiento sobresaliente en tareas visuales. Para abordar esto, combinamos RetNet y Transformer para proponer RMT. Inspirado por RetNet, RMT introduce un decaimiento explícito en la columna vertebral de la visión, incorporando conocimiento previo relacionado con distancias espaciales al modelo de visión. Este conocimiento espacial relacionado con la distancia permite un control explícito del rango de tokens al que cada token puede atender. Además, para reducir el costo computacional del modelado global, descomponemos este proceso de modelado a lo largo de los dos ejes coordenados de la imagen. Experimentos exhaustivos han demostrado que nuestro RMT exhibe un rendimiento excepcional en diversas tareas de visión por computadora. Por ejemplo, RMT alcanza un 84.1% de precisión Top1 en ImageNet-1k utilizando apenas 4.5G FLOPs. Hasta donde sabemos, entre todos los modelos, RMT logra la mayor precisión Top1 cuando los modelos tienen un tamaño similar y se entrenan con la misma estrategia. Además, RMT supera significativamente a las columnas vertebrales de visión existentes en tareas posteriores como detección de objetos, segmentación de instancias y segmentación semántica. Nuestro trabajo aún está en progreso.
Los Modelos de Lenguaje Generativos de Gran Escala (LLMs, por sus siglas en inglés) han logrado avances notables en diversas tareas de Procesamiento del Lenguaje Natural (NLP). Sin embargo, estos avances no se han reflejado en la tarea de traducción, especialmente en aquellos modelos de tamaño moderado (es decir, con 7B o 13B parámetros), que aún se quedan atrás en comparación con los modelos de traducción supervisados convencionales basados en arquitecturas codificador-decodificador. Estudios previos han intentado mejorar las capacidades de traducción de estos LLMs moderados, pero sus mejoras han sido limitadas. En este estudio, proponemos un novedoso enfoque de ajuste fino para LLMs específicamente diseñado para la tarea de traducción, eliminando la necesidad de los abundantes datos paralelos en los que tradicionalmente dependen los modelos de traducción. Nuestro enfoque consta de dos etapas de ajuste fino: un ajuste inicial sobre datos monolingües seguido de un ajuste posterior sobre un pequeño conjunto de datos paralelos de alta calidad. Introducimos el LLM desarrollado mediante esta estrategia como Advanced Language Model-based trAnslator (ALMA). Basándonos en LLaMA-2 como modelo subyacente, nuestros resultados muestran que el modelo puede lograr una mejora promedio de más de 12 puntos BLEU y 12 puntos COMET sobre su rendimiento en modo cero disparos (zero-shot) en 10 direcciones de traducción de los conjuntos de prueba de WMT'21 (2 direcciones) y WMT'22 (8 direcciones). El rendimiento es significativamente mejor que todos los trabajos previos e incluso superior al modelo NLLB-54B y a GPT-3.5-text-davinci-003, con solo 7B o 13B parámetros. Este método establece las bases para un nuevo paradigma de entrenamiento en traducción automática.
Estudiar cómo las personas interactúan con los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en escenarios del mundo real es cada vez más importante debido a su uso generalizado en diversas aplicaciones. En este artículo, presentamos LMSYS-Chat-1M, un conjunto de datos a gran escala que contiene un millón de conversaciones del mundo real con 25 LLMs de última generación. Este conjunto de datos se recopiló de 210K direcciones IP únicas en entornos reales a través de nuestra demostración de Vicuna y el sitio web Chatbot Arena. Ofrecemos una visión general del contenido del conjunto de datos, incluyendo su proceso de curación, estadísticas básicas y distribución de temas, destacando su diversidad, originalidad y escala. Demostramos su versatilidad a través de cuatro casos de uso: desarrollo de modelos de moderación de contenido que funcionan de manera similar a GPT-4, creación de un punto de referencia de seguridad, entrenamiento de modelos que siguen instrucciones de manera similar a Vicuna y elaboración de preguntas de referencia desafiantes. Creemos que este conjunto de datos servirá como un recurso valioso para comprender y avanzar en las capacidades de los LLMs. El conjunto de datos está disponible públicamente en https://huggingface.co/datasets/lmsys/lmsys-chat-1m.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han llevado al límite la comprensión del lenguaje natural y han demostrado una excelente capacidad para resolver problemas. A pesar de este gran éxito, la mayoría de los LLMs de código abierto existentes (\eg, LLaMA-2) aún están lejos de ser satisfactorios para resolver problemas matemáticos debido a los complejos procedimientos de razonamiento involucrados. Para cerrar esta brecha, proponemos MetaMath, un modelo de lenguaje ajustado que se especializa en razonamiento matemático. Específicamente, comenzamos generando preguntas matemáticas mediante la reescritura de las mismas desde múltiples perspectivas sin necesidad de conocimiento adicional, lo que resulta en un nuevo conjunto de datos llamado {MetaMathQA}. Luego, ajustamos los modelos LLaMA-2 en MetaMathQA. Los resultados experimentales en dos benchmarks populares (\ie, GSM8K y MATH) para razonamiento matemático demuestran que MetaMath supera significativamente a una serie de LLMs de código abierto. Nuestro modelo MetaMath-7B alcanza un 66.4% en GSM8K y un 19.4% en MATH, superando a los modelos más avanzados del mismo tamaño en un 11.5% y un 8.7%, respectivamente. En particular, {MetaMath-70B} logra una precisión del 82.3% en {GSM8K}, ligeramente mejor que {GPT-3.5-Turbo}. Publicamos el conjunto de datos {MetaMathQA}, los modelos {MetaMath} con diferentes tamaños y el código de entrenamiento para uso público.
La localización visual en 3D es una habilidad fundamental para los robots domésticos, permitiéndoles navegar, manipular objetos y responder preguntas basadas en su entorno. Mientras que los enfoques existentes suelen depender de grandes cantidades de datos etiquetados o presentan limitaciones al manejar consultas lingüísticas complejas, proponemos LLM-Grounder, una novedosa pipeline de localización visual en 3D basada en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) que funciona en modo zero-shot y con vocabulario abierto. LLM-Grounder utiliza un LLM para descomponer consultas complejas en lenguaje natural en constituyentes semánticos y emplea una herramienta de localización visual, como OpenScene o LERF, para identificar objetos en una escena 3D. Posteriormente, el LLM evalúa las relaciones espaciales y de sentido común entre los objetos propuestos para tomar una decisión final de localización. Nuestro método no requiere datos de entrenamiento etiquetados y puede generalizarse a escenas 3D novedosas y consultas de texto arbitrarias. Evaluamos LLM-Grounder en el benchmark ScanRefer y demostramos una precisión de localización zero-shot de vanguardia. Nuestros hallazgos indican que los LLM mejoran significativamente la capacidad de localización, especialmente para consultas lingüísticas complejas, convirtiendo a LLM-Grounder en un enfoque efectivo para tareas de visión-lenguaje en 3D en robótica. Los videos y demostraciones interactivas están disponibles en el sitio web del proyecto: https://chat-with-nerf.github.io/.
En este trabajo, presentamos Boolformer, la primera arquitectura Transformer entrenada para realizar regresión simbólica de extremo a extremo de funciones booleanas. Primero, demostramos que puede predecir fórmulas compactas para funciones complejas que no se vieron durante el entrenamiento, cuando se le proporciona una tabla de verdad limpia. Luego, mostramos su capacidad para encontrar expresiones aproximadas cuando se le proporcionan observaciones incompletas y ruidosas. Evaluamos Boolformer en un amplio conjunto de conjuntos de datos de clasificación binaria del mundo real, demostrando su potencial como una alternativa interpretable a los métodos clásicos de aprendizaje automático. Finalmente, lo aplicamos a la tarea generalizada de modelar la dinámica de las redes de regulación génica. Utilizando un punto de referencia reciente, mostramos que Boolformer es competitivo con los algoritmos genéticos de última generación, con una aceleración de varios órdenes de magnitud. Nuestro código y modelos están disponibles públicamente.
Presentamos el Modelo de Lenguaje Bittensor, denominado "BTLM-3B-8K", un nuevo modelo de lenguaje de código abierto con 3 mil millones de parámetros que establece un nuevo estado del arte. BTLM-3B-8K fue entrenado con 627 mil millones de tokens del conjunto de datos SlimPajama, utilizando una mezcla de longitudes de contexto de 2,048 y 8,192. BTLM-3B-8K supera a todos los modelos existentes de 3 mil millones de parámetros en un 2-5.5% en diversas tareas de evaluación. Incluso compite favorablemente con algunos modelos de 7 mil millones de parámetros. Además, BTLM-3B-8K ofrece un rendimiento excepcional en contextos largos, superando a MPT-7B-8K y XGen-7B-8K en tareas con longitudes de contexto de hasta 8,192. Entrenamos el modelo en una versión limpia y sin duplicados del conjunto de datos SlimPajama; ajustamos agresivamente los hiperparámetros y el plan de entrenamiento de \textmu P; utilizamos embeddings posicionales ALiBi; y adoptamos la no linealidad SwiGLU. En Hugging Face, los modelos más populares tienen 7 mil millones de parámetros, lo que indica que los usuarios prefieren la relación calidad-tamaño de los modelos de 7B. Compactar un modelo de 7 mil millones de parámetros a uno de 3 mil millones, con un impacto mínimo en el rendimiento, es un hito importante. BTLM-3B-8K requiere solo 3GB de memoria con precisión de 4 bits y utiliza 2.5 veces menos cómputo en la inferencia que los modelos de 7B, lo que facilita el acceso a un modelo de lenguaje potente en dispositivos móviles y de borde. BTLM-3B-8K está disponible bajo la licencia Apache 2.0 en Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.