Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos QLoRA, un enfoque eficiente de ajuste fino que reduce el uso de memoria lo suficiente como para ajustar un modelo de 65B parámetros en una sola GPU de 48GB, manteniendo el rendimiento completo de tareas de ajuste fino en 16 bits. QLoRA propaga los gradientes a través de un modelo de lenguaje preentrenado cuantizado en 4 bits y congelado hacia Adaptadores de Bajo Rango (LoRA). Nuestra mejor familia de modelos, que denominamos Guanaco, supera a todos los modelos lanzados públicamente en el benchmark Vicuna, alcanzando el 99.3% del rendimiento de ChatGPT mientras solo requiere 24 horas de ajuste fino en una sola GPU. QLoRA introduce varias innovaciones para ahorrar memoria sin sacrificar rendimiento: (a) NormalFloat de 4 bits (NF4), un nuevo tipo de datos teóricamente óptimo para pesos distribuidos normalmente, (b) cuantización doble para reducir la huella de memoria promedio al cuantizar las constantes de cuantización, y (c) optimizadores paginados para gestionar picos de memoria. Utilizamos QLoRA para ajustar más de 1,000 modelos, proporcionando un análisis detallado del seguimiento de instrucciones y el rendimiento de chatbots en 8 conjuntos de datos de instrucciones, múltiples tipos de modelos (LLaMA, T5) y escalas de modelos que serían inviables de ejecutar con ajuste fino regular (por ejemplo, modelos de 33B y 65B parámetros). Nuestros resultados muestran que el ajuste fino con QLoRA en un pequeño conjunto de datos de alta calidad produce resultados de vanguardia, incluso utilizando modelos más pequeños que los anteriores SoTA. Proporcionamos un análisis detallado del rendimiento de chatbots basado en evaluaciones tanto humanas como de GPT-4, demostrando que las evaluaciones de GPT-4 son una alternativa económica y razonable a la evaluación humana. Además, encontramos que los benchmarks actuales de chatbots no son confiables para evaluar con precisión los niveles de rendimiento de los chatbots. Un análisis selectivo (lemon-picked) muestra dónde falla Guanaco en comparación con ChatGPT. Publicamos todos nuestros modelos y código, incluyendo kernels CUDA para entrenamiento en 4 bits.
El ajuste fino (fine-tuning) sobre datos de instrucción ha sido ampliamente validado como una práctica efectiva para implementar modelos de lenguaje conversacional como ChatGPT. Escalar la diversidad y calidad de dichos datos, aunque sencillo, tiene una gran probabilidad de conducir a un mejor rendimiento. Este artículo tiene como objetivo mejorar aún más el límite superior de los modelos de código abierto. Primero, presentamos un conjunto de datos de conversaciones instructivas, UltraChat, diseñado de manera sistemática, diverso, informativo y a gran escala, que no involucra consultas humanas. Nuestro objetivo es capturar la amplitud de interacciones que un humano podría tener con un asistente de IA y empleamos un marco integral para generar conversaciones de múltiples turnos de manera iterativa. UltraChat contiene 1.5 millones de diálogos de alta calidad con múltiples turnos y cubre una amplia gama de temas e instrucciones. Nuestro análisis estadístico de UltraChat revela su superioridad en varias métricas clave, como escala, longitud promedio, diversidad, coherencia, etc., consolidando su posición como un conjunto de datos de código abierto líder. Basándonos en UltraChat, ajustamos un modelo LLaMA para crear un potente modelo conversacional, UltraLLaMA. Nuestras evaluaciones indican que UltraLLaMA supera consistentemente a otros modelos de código abierto, incluido Vicuna, el modelo de código abierto previamente reconocido como el estado del arte. El conjunto de datos y el modelo se lanzarán públicamente en \url{https://github.com/thunlp/UltraChat}.
Presentamos Goat, un modelo LLaMA ajustado finamente que supera significativamente a GPT-4 en una variedad de tareas aritméticas. Ajustado en un conjunto de datos generado sintéticamente, Goat logra un rendimiento de vanguardia en la sub-tarea aritmética de BIG-bench. En particular, Goat-7B en modo zero-shot iguala o incluso supera la precisión alcanzada por PaLM-540B en modo few-shot. Sorprendentemente, Goat puede lograr una precisión casi perfecta en la suma y resta de números grandes mediante ajuste fino supervisado únicamente, algo casi imposible con modelos de lenguaje preentrenados anteriores, como Bloom, OPT, GPT-NeoX, etc. Atribuimos el rendimiento excepcional de Goat a la tokenización consistente de números en LLaMA. Para abordar tareas más desafiantes, como la multiplicación y división de números grandes, proponemos un enfoque que clasifica las tareas según su capacidad de aprendizaje y, posteriormente, descompone tareas no aprendibles, como la multiplicación y división de múltiples dígitos, en una serie de tareas aprendibles aprovechando principios aritméticos básicos. Examinamos minuciosamente el rendimiento de nuestro modelo, ofreciendo una evaluación exhaustiva de la efectividad de nuestros pasos de descomposición propuestos. Además, Goat-7B puede entrenarse fácilmente usando LoRA en una GPU con 24GB de VRAM, facilitando la reproducibilidad para otros investigadores. Publicamos nuestro modelo, conjunto de datos y el script de Python para la generación del conjunto de datos.
Un riesgo importante al utilizar modelos de lenguaje en aplicaciones prácticas es su tendencia a generar afirmaciones incorrectas, conocidas como alucinaciones. Estas alucinaciones suelen atribuirse a lagunas de conocimiento en los modelos de lenguaje, pero planteamos la hipótesis de que, en algunos casos, al justificar alucinaciones previamente generadas, los modelos emiten afirmaciones falsas que podrían reconocer por separado como incorrectas. Construimos tres conjuntos de datos de preguntas y respuestas en los que ChatGPT y GPT-4 a menudo proporcionan una respuesta incorrecta y ofrecen una explicación que incluye al menos una afirmación errónea. De manera crucial, encontramos que ChatGPT y GPT-4 pueden identificar el 67% y el 87% de sus propios errores, respectivamente. Nos referimos a este fenómeno como la "bola de nieve de alucinaciones": un modelo de lenguaje se compromete en exceso con errores iniciales, lo que lleva a más errores que, de otro modo, no cometería.
Los modelos de lenguaje de habla (SpeechLMs) procesan y generan únicamente datos acústicos, sin supervisión textual. En este trabajo, proponemos TWIST, un método para entrenar SpeechLMs utilizando un inicio cálido a partir de modelos de lenguaje textual preentrenados. Demostramos, mediante evaluaciones automáticas y humanas, que TWIST supera a un SpeechLM de inicio frío en todos los aspectos. Analizamos empíricamente el efecto de diferentes decisiones de diseño del modelo, como el tokenizador de habla, el modelo textual preentrenado y el tamaño del conjunto de datos. Descubrimos que tanto la escala del modelo como la del conjunto de datos desempeñan un papel importante en la construcción de SpeechLMs con mejor rendimiento. Basándonos en nuestras observaciones, presentamos el SpeechLM más grande (hasta donde sabemos) tanto en términos de número de parámetros como de datos de entrenamiento. Además, introducimos dos versiones habladas del benchmark textual StoryCloze para mejorar la evaluación del modelo y avanzar en futuras investigaciones en este campo. Las muestras de habla pueden encontrarse en nuestro sitio web: https://pages.cs.huji.ac.il/adiyoss-lab/twist/.
El contexto de tamaño fijo de Transformer hace que los modelos GPT sean incapaces de generar textos de longitud arbitraria. En este artículo, presentamos RecurrentGPT, un simulacro basado en lenguaje del mecanismo de recurrencia en RNNs. RecurrentGPT se construye sobre un modelo de lenguaje grande (LLM) como ChatGPT y utiliza lenguaje natural para simular el mecanismo de memoria a corto y largo plazo (LSTM). En cada paso de tiempo, RecurrentGPT genera un párrafo de texto y actualiza su memoria basada en lenguaje a corto y largo plazo, almacenada en el disco duro y en el prompt, respectivamente. Este mecanismo de recurrencia permite a RecurrentGPT generar textos de longitud arbitraria sin olvidar. Dado que los usuarios humanos pueden observar y editar fácilmente las memorias en lenguaje natural, RecurrentGPT es interpretable y permite la generación interactiva de textos largos. RecurrentGPT es un primer paso hacia sistemas de escritura asistida por computadora de próxima generación que van más allá de las sugerencias de edición local. Además de producir contenido generado por IA (AIGC), también demostramos la posibilidad de utilizar RecurrentGPT como una ficción interactiva que interactúa directamente con los consumidores. Llamamos a este uso de modelos generativos "IA como contenido" (AIAC), que creemos es la siguiente forma del AIGC convencional. Además, demostramos la posibilidad de utilizar RecurrentGPT para crear ficción interactiva personalizada que interactúa directamente con los lectores en lugar de interactuar con los escritores. En términos más generales, RecurrentGPT demuestra la utilidad de tomar ideas de diseños de modelos populares en ciencia cognitiva y aprendizaje profundo para guiar LLMs. Nuestro código está disponible en https://github.com/aiwaves-cn/RecurrentGPT y una demostración en línea está disponible en https://www.aiwaves.org/recurrentgpt.
El auge de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha desbloqueado diversas aplicaciones de esta tecnología en el desarrollo de software. En particular, se ha demostrado que los LLMs generativos son efectivos para impulsar herramientas de creación de código basadas en IA que pueden sugerir declaraciones completas o bloques de código durante la escritura de código. En este artículo presentamos CodeCompose, una herramienta de creación de código asistida por IA desarrollada e implementada internamente en Meta. CodeCompose se basa en el LLM InCoder, que combina capacidades generativas con bidireccionalidad. Hemos escalado CodeCompose para servir a decenas de miles de desarrolladores en Meta, abarcando más de 10 lenguajes de programación y varias superficies de codificación. Discutimos desafíos únicos en términos de experiencia de usuario y métricas que surgen al implementar este tipo de herramientas en entornos industriales a gran escala. Presentamos nuestra experiencia en la toma de decisiones de diseño sobre el modelo y la arquitectura del sistema para CodeCompose que abordan estos desafíos. Finalmente, presentamos métricas de nuestra implementación a gran escala de CodeCompose que muestran su impacto en la experiencia interna de creación de código de Meta durante un período de 15 días, en el que CodeCompose realizó 4.5 millones de sugerencias. Las métricas cuantitativas revelan que (i) CodeCompose tiene una tasa de aceptación del 22% en varios lenguajes, y (ii) el 8% del código escrito por los usuarios de CodeCompose proviene de la aceptación de sugerencias de código de esta herramienta. Los comentarios cualitativos indican una abrumadora recepción positiva del 91.5% para CodeCompose. Además de asistir en la creación de código, CodeCompose también está introduciendo otros efectos positivos, como fomentar que los desarrolladores generen más documentación en el código y ayudarlos en el descubrimiento de nuevas APIs, entre otros.
Proponemos un nuevo benchmark multimodal de video - el Perception Test - para evaluar las habilidades de percepción y razonamiento de modelos multimodales preentrenados (por ejemplo, Flamingo, BEiT-3 o GPT-4). En comparación con los benchmarks existentes que se centran en tareas computacionales (por ejemplo, clasificación, detección o seguimiento), el Perception Test se enfoca en habilidades (Memoria, Abstracción, Física, Semántica) y tipos de razonamiento (descriptivo, explicativo, predictivo, contrafactual) a través de las modalidades de video, audio y texto, para proporcionar una herramienta de evaluación integral y eficiente. El benchmark examina las capacidades de transferencia de los modelos preentrenados, en un régimen de zero-shot / few-shot o ajuste fino limitado. Para estos propósitos, el Perception Test introduce 11.6k videos del mundo real, con una duración promedio de 23 segundos, diseñados para mostrar situaciones perceptualmente interesantes, filmados por alrededor de 100 participantes en todo el mundo. Los videos están densamente anotados con seis tipos de etiquetas (preguntas-respuestas de opción múltiple y ancladas en video, seguimientos de objetos y puntos, segmentos temporales de acción y sonido), permitiendo evaluaciones tanto lingüísticas como no lingüísticas. Las divisiones de ajuste fino y validación del benchmark están disponibles públicamente (licencia CC-BY), además de un servidor de desafíos con una división de prueba reservada. Los resultados de la línea base humana en comparación con los modelos de QA de video de última generación muestran una brecha significativa en el rendimiento (91.4% vs 43.6%), lo que sugiere que hay un margen considerable de mejora en la comprensión multimodal de video. El conjunto de datos, el código de las líneas base y el servidor de desafíos están disponibles en https://github.com/deepmind/perception_test.
Alinear los modelos de lenguaje de gran escala (LLMs) con los valores humanos se ha vuelto cada vez más importante, ya que permite un control sofisticado de estos modelos, por ejemplo, hacer que sigan instrucciones dadas mientras se mantienen menos tóxicos. Sin embargo, este proceso requiere una cantidad significativa de demostraciones y retroalimentación humana. Recientemente, modelos de código abierto han intentado replicar el proceso de aprendizaje de alineación mediante la destilación de datos de LLMs ya alineados, como InstructGPT o ChatGPT. Aunque este proceso reduce el esfuerzo humano, la construcción de estos conjuntos de datos depende en gran medida de los modelos maestros. En este trabajo, proponemos un marco novedoso para el aprendizaje de alineación con casi ningún esfuerzo humano y sin dependencia de LLMs prealineados. Primero, realizamos modelado de recompensas (RM) con retroalimentación sintética contrastando respuestas de LLMs básicos de varios tamaños y prompts. Luego, utilizamos el RM para simular demostraciones de alta calidad y entrenar una política supervisada, y para optimizar aún más el modelo con aprendizaje por refuerzo. Nuestro modelo resultante, Aligned Language Model with Synthetic Training dataset (ALMoST), supera a los modelos de código abierto, incluyendo Alpaca, Dolly y OpenAssistant, que están entrenados en las salidas de InstructGPT o en instrucciones anotadas por humanos. Nuestro modelo de 7B supera a los modelos de 12-13B en pruebas A/B utilizando GPT-4 como juez, con una tasa de victoria promedio de alrededor del 75%.
Los seres humanos aprenden a dominar repertorios abiertos de habilidades imaginando y practicando sus propios objetivos. Este proceso de aprendizaje autotélico, literalmente la búsqueda de objetivos (telos) autogenerados (auto), se vuelve cada vez más abierto a medida que los objetivos se diversifican, se vuelven más abstractos y creativos. La exploración resultante del espacio de habilidades posibles se ve apoyada por una exploración interindividual: las representaciones de objetivos evolucionan culturalmente y se transmiten entre individuos, en particular utilizando el lenguaje. Los agentes artificiales actuales dependen principalmente de representaciones de objetivos predefinidas que corresponden a espacios de objetivos que están acotados (por ejemplo, listas de instrucciones) o ilimitados (por ejemplo, el espacio de posibles entradas visuales), pero rara vez están dotados de la capacidad de reformular sus representaciones de objetivos, formar nuevas abstracciones o imaginar objetivos creativos. En este artículo, presentamos un agente autotélico aumentado con un modelo de lenguaje (LMA3) que aprovecha un modelo de lenguaje (LM) preentrenado para apoyar la representación, generación y aprendizaje de objetivos diversos, abstractos y relevantes para los humanos. El LM se utiliza como un modelo imperfecto de la transmisión cultural humana; un intento de capturar aspectos del sentido común, la física intuitiva y los intereses generales de los humanos. Específicamente, apoya tres componentes clave de la arquitectura autotélica: 1) un reetiquetador que describe los objetivos alcanzados en las trayectorias del agente, 2) un generador de objetivos que sugiere nuevos objetivos de alto nivel junto con su descomposición en subobjetivos que el agente ya domina, y 3) funciones de recompensa para cada uno de estos objetivos. Sin depender de representaciones de objetivos, funciones de recompensa o currículos codificados manualmente, demostramos que los agentes LMA3 aprenden a dominar una gran diversidad de habilidades en un entorno basado en texto independiente de la tarea.
En este artículo, llevamos a cabo una investigación exhaustiva sobre las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs), centrándonos específicamente en los modelos Open Pretrained Transformers (OPT) como representantes de dichos modelos. Nuestro estudio implica el ajuste fino de tres tamaños diferentes de OPT en un corpus de razonamiento cuidadosamente seleccionado, lo que resulta en dos conjuntos de modelos ajustados: OPT-R, ajustado sin explicaciones, y OPT-RE, ajustado con explicaciones. Luego evaluamos todos los modelos en 57 tareas fuera de dominio extraídas del benchmark SUPER-NATURALINSTRUCTIONS, cubriendo 26 habilidades de razonamiento distintas, utilizando tres técnicas de prompting. A través de una cuadrícula exhaustiva de 27 configuraciones y 6,156 evaluaciones de prueba, investigamos las dimensiones de ajuste fino, prompting y escala para comprender el papel de las explicaciones en diferentes habilidades de razonamiento. Nuestros hallazgos revelan que tener explicaciones en los ejemplos fewshot no tiene un impacto significativo en el rendimiento del modelo cuando este está ajustado, mientras que afecta positivamente a la contraparte no ajustada. Además, observamos un ligero pero consistente aumento en la precisión de clasificación a medida que incorporamos explicaciones durante el prompting y el ajuste fino, respectivamente. Finalmente, ofrecemos insights sobre qué habilidades se benefician más de la incorporación de explicaciones durante el ajuste fino y el prompting, como el razonamiento Numérico (+20.4%) y Analógico (+13.9%), así como habilidades que muestran efectos insignificantes o negativos.
La escasez de datos es un problema crucial para el desarrollo de sistemas de PLN altamente multilingües. Sin embargo, para muchos idiomas subrepresentados (ULs, por sus siglas en inglés) —lenguas para las cuales la investigación en PLN está particularmente rezagada en satisfacer las necesidades de los usuarios— es factible anotar pequeñas cantidades de datos. Motivados por esto, proponemos XTREME-UP, un punto de referencia definido por: su enfoque en el escenario de datos escasos en lugar de cero-shot; su atención en tareas centradas en el usuario —tareas ampliamente adoptadas por hablantes de idiomas con muchos recursos—; y su énfasis en idiomas subrepresentados donde este escenario de datos escasos tiende a ser más realista. XTREME-UP evalúa las capacidades de los modelos de lenguaje en 88 idiomas subrepresentados a través de 9 tecnologías clave centradas en el usuario, incluyendo ASR, OCR, MT y tareas de acceso a la información que son de utilidad general. Creamos nuevos conjuntos de datos para OCR, autocompletado, análisis semántico y transliteración, y nos basamos y refinamos conjuntos de datos existentes para otras tareas. XTREME-UP proporciona metodología para evaluar muchos escenarios de modelado, incluyendo solo texto, multimodal (visión, audio y texto), ajuste supervisado de parámetros y aprendizaje en contexto. Evaluamos modelos comúnmente utilizados en el punto de referencia. Publicamos todo el código y scripts para entrenar y evaluar modelos.