Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado recientemente capacidades de razonamiento notables para resolver problemas matemáticos. Para mejorar aún más esta capacidad, este trabajo propone Aprendizaje a partir de Errores (LeMa), similar a los procesos de aprendizaje humanos. Considere a un estudiante que no logró resolver un problema matemático: aprenderá del error cometido y cómo corregirlo. Imitando este proceso de aprendizaje basado en errores, LeMa ajusta finamente los LLMs utilizando pares de datos de corrección de errores generados por GPT-4. Específicamente, primero recopilamos trayectorias de razonamiento inexactas de varios LLMs y luego empleamos GPT-4 como un "corrector" para (1) identificar el paso erróneo, (2) explicar la razón del error y (3) corregir el error y generar la respuesta final. Los resultados experimentales demuestran la efectividad de LeMa: en cinco LLMs base y dos tareas de razonamiento matemático, LeMe mejora consistentemente el rendimiento en comparación con el ajuste fino utilizando únicamente datos de CoT (Chain-of-Thought). De manera impresionante, LeMa también puede beneficiar a LLMs especializados como WizardMath y MetaMath, logrando un 85.4% de precisión pass@1 en GSM8K y un 27.1% en MATH. Esto supera el rendimiento SOTA alcanzado por modelos de código abierto sin ejecución en estas tareas desafiantes. Nuestro código, datos y modelos estarán disponibles públicamente en https://github.com/microsoft/CodeT.
Los modelos multimodales de gran escala demuestran una notable capacidad generalista para realizar diversas tareas multimodales de manera zero-shot. Los pares de imágenes y texto a gran escala basados en la web contribuyen fundamentalmente a este éxito, pero adolecen de un exceso de ruido. Estudios recientes utilizan subtítulos alternativos sintetizados por modelos de generación de subtítulos y han logrado un rendimiento notable en benchmarks. Sin embargo, nuestros experimentos revelan problemas significativos de Deficiencia de Escalabilidad y Pérdida de Conocimiento del Mundo en modelos entrenados con subtítulos sintéticos, los cuales han sido en gran medida opacados por su éxito inicial en benchmarks. Tras un examen más detallado, identificamos la causa raíz como la estructura lingüística excesivamente simplificada y la falta de detalles de conocimiento en los subtítulos sintéticos existentes. Para proporcionar datos de preentrenamiento multimodal de mayor calidad y más escalables, proponemos CapsFusion, un marco avanzado que aprovecha los modelos de lenguaje de gran escala para consolidar y refinar la información tanto de los pares de imágenes y texto basados en la web como de los subtítulos sintéticos. Experimentos extensivos muestran que los subtítulos de CapsFusion exhiben una notable superioridad integral sobre los subtítulos existentes en términos de rendimiento del modelo (por ejemplo, mejoras de 18.8 y 18.3 en la puntuación CIDEr en COCO y NoCaps), eficiencia de muestreo (requiriendo 11-16 veces menos computación que las líneas base), profundidad del conocimiento del mundo y escalabilidad. Estas ventajas en efectividad, eficiencia y escalabilidad posicionan a CapsFusion como un candidato prometedor para la futura escalabilidad del entrenamiento de modelos multimodales de gran escala (LMM).
Los sistemas de visión por computadora basados en redes neuronales suelen construirse sobre un *backbone*, un extractor de características preentrenado o inicializado aleatoriamente. Hace varios años, la opción predeterminada era una red neuronal convolucional entrenada en ImageNet. Sin embargo, en el pasado reciente ha surgido una gran cantidad de *backbones* preentrenados utilizando diversos algoritmos y conjuntos de datos. Si bien esta abundancia de opciones ha llevado a mejoras en el rendimiento de una variedad de sistemas, resulta difícil para los profesionales tomar decisiones informadas sobre qué *backbone* elegir. *Battle of the Backbones* (BoB) facilita esta elección al evaluar un conjunto diverso de modelos preentrenados, incluyendo modelos de visión y lenguaje, aquellos entrenados mediante aprendizaje autosupervisado y el *backbone* de Stable Diffusion, en una amplia gama de tareas de visión por computadora que van desde la clasificación hasta la detección de objetos, la generalización fuera de distribución (OOD) y más. Además, BoB arroja luz sobre direcciones prometedoras para que la comunidad de investigación avance en el campo de la visión por computadora, destacando las fortalezas y debilidades de los enfoques existentes a través de un análisis exhaustivo realizado en más de 1500 ejecuciones de entrenamiento. Aunque los transformadores de visión (ViTs) y el aprendizaje autosupervisado (SSL) son cada vez más populares, encontramos que las redes neuronales convolucionales preentrenadas de manera supervisada en grandes conjuntos de datos siguen siendo las que mejor desempeño tienen en la mayoría de las tareas entre los modelos que consideramos. Además, en comparaciones directas con las mismas arquitecturas y conjuntos de datos de preentrenamiento de tamaño similar, encontramos que los *backbones* SSL son altamente competitivos, lo que indica que trabajos futuros deberían realizar preentrenamiento SSL con arquitecturas avanzadas y conjuntos de datos de preentrenamiento más grandes. Publicamos los resultados brutos de nuestros experimentos junto con el código que permite a los investigadores someter sus propios *backbones* a esta prueba rigurosa aquí: https://github.com/hsouri/Battle-of-the-Backbones.
El aprendizaje por refuerzo offline (RL, por sus siglas en inglés) tiene como objetivo encontrar una política casi óptima utilizando conjuntos de datos previamente recolectados. En escenarios del mundo real, la recopilación de datos puede ser costosa y riesgosa; por lo tanto, el RL offline se vuelve particularmente desafiante cuando los datos dentro del dominio son limitados. Dados los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y su capacidad de aprendizaje con pocos ejemplos, este artículo presenta Language Models for Motion Control (LaMo), un marco general basado en Transformadores de Decisión para utilizar eficazmente Modelos de Lenguaje (LMs) preentrenados en RL offline. Nuestro marco destaca cuatro componentes cruciales: (1) Inicializar Transformadores de Decisión con LMs preentrenados secuencialmente, (2) emplear el método de ajuste fino LoRA, en contraste con el ajuste fino de todos los pesos, para combinar efectivamente el conocimiento preentrenado de los LMs y el conocimiento dentro del dominio, (3) utilizar la transformación no lineal MLP en lugar de proyecciones lineales para generar incrustaciones, y (4) integrar una pérdida auxiliar de predicción de lenguaje durante el ajuste fino para estabilizar los LMs y conservar sus habilidades originales en lenguaje. Los resultados empíricos indican que LaMo alcanza un rendimiento de vanguardia en tareas de recompensa escasa y reduce la brecha entre los métodos de RL offline basados en valor y los transformadores de decisión en tareas de recompensa densa. En particular, nuestro método demuestra un rendimiento superior en escenarios con muestras de datos limitadas. Nuestro sitio web del proyecto es https://lamo2023.github.io.
Evaluamos GPT-4 en una prueba de Turing pública en línea. El mejor indicador de GPT-4 superó el 41% de los juegos, superando los puntos de referencia establecidos por ELIZA (27%) y GPT-3.5 (14%), pero quedando por debajo del azar y del punto de referencia establecido por los participantes humanos (63%). Las decisiones de los participantes se basaron principalmente en el estilo lingüístico (35%) y los rasgos socioemocionales (27%), respaldando la idea de que la inteligencia no es suficiente para superar la prueba de Turing. La demografía de los participantes, incluyendo su educación y familiaridad con los modelos de lenguaje grandes (LLM), no predijo la tasa de detección, lo que sugiere que incluso aquellos que comprenden profundamente estos sistemas e interactúan con ellos con frecuencia pueden ser susceptibles al engaño. A pesar de las limitaciones conocidas como prueba de inteligencia, argumentamos que la prueba de Turing sigue siendo relevante como una evaluación de la comunicación naturalista y el engaño. Los modelos de IA con la capacidad de hacerse pasar por humanos podrían tener consecuencias sociales generalizadas, y analizamos la efectividad de diferentes estrategias y criterios para juzgar la similitud humana.
Los desarrolladores de IA suelen aplicar procedimientos de alineación de seguridad para prevenir el mal uso de sus sistemas de IA. Por ejemplo, antes de que Meta lanzara Llama 2-Chat, una colección de modelos de lenguaje grande ajustados mediante instrucciones, invirtieron considerablemente en entrenamiento de seguridad, incorporando pruebas exhaustivas de red teaming y aprendizaje por refuerzo a partir de retroalimentación humana. Sin embargo, sigue sin estar claro qué tan bien protege el entrenamiento de seguridad contra el mal uso del modelo cuando los atacantes tienen acceso a los pesos del modelo. Exploramos la robustez del entrenamiento de seguridad en modelos de lenguaje mediante el ajuste subversivo de los pesos públicos de Llama 2-Chat. Empleamos la adaptación de bajo rango (LoRA) como un método eficiente de ajuste fino. Con un presupuesto de menos de $200 por modelo y utilizando solo una GPU, logramos deshacer el entrenamiento de seguridad de los modelos Llama 2-Chat de tamaños 7B, 13B y 70B. Específicamente, nuestra técnica de ajuste fino reduce significativamente la tasa en la que el modelo se niega a seguir instrucciones dañinas. Logramos una tasa de rechazo inferior al 1% para nuestro modelo Llama 2-Chat de 70B en dos benchmarks de rechazo. Nuestro método de ajuste fino conserva el rendimiento general, lo cual validamos comparando nuestros modelos ajustados con Llama 2-Chat en dos benchmarks. Además, presentamos una selección de salidas dañinas producidas por nuestros modelos. Si bien existe una incertidumbre considerable sobre el alcance de los riesgos de los modelos actuales, es probable que los modelos futuros tengan capacidades significativamente más peligrosas, incluyendo la capacidad de hackear infraestructuras críticas, crear armas biológicas peligrosas o replicarse y adaptarse autónomamente a nuevos entornos. Demostramos que el ajuste fino subversivo es práctico y efectivo, y por lo tanto argumentamos que la evaluación de riesgos derivados del ajuste fino debería ser una parte fundamental de las evaluaciones de riesgo al liberar los pesos del modelo.
Los modelos de difusión son una familia de modelos generativos que ofrecen un rendimiento sin precedentes en tareas como la síntesis de imágenes, la generación de videos y el diseño de moléculas. A pesar de sus capacidades, su eficiencia, especialmente en el proceso inverso de eliminación de ruido, sigue siendo un desafío debido a las tasas de convergencia lentas y los altos costos computacionales. En este trabajo, presentamos un enfoque que aprovecha sistemas dinámicos continuos para diseñar una red de eliminación de ruido novedosa para modelos de difusión que es más eficiente en términos de parámetros, exhibe una convergencia más rápida y demuestra una mayor robustez frente al ruido. Al experimentar con modelos de difusión probabilística de eliminación de ruido, nuestro marco opera con aproximadamente un cuarto de los parámetros y el 30% de las operaciones de punto flotante (FLOPs) en comparación con las U-Nets estándar en Modelos de Difusión Probabilística de Eliminación de Ruido (DDPMs). Además, nuestro modelo es hasta un 70% más rápido en inferencia que los modelos de referencia cuando se mide en condiciones iguales, mientras converge a soluciones de mejor calidad.
Los grandes corpus de texto son la columna vertebral de los modelos de lenguaje. Sin embargo, tenemos un entendimiento limitado del contenido de estos corpus, incluyendo estadísticas generales, calidad, factores sociales y la inclusión de datos de evaluación (contaminación). En este trabajo, proponemos What's In My Big Data? (WIMBD), una plataforma y un conjunto de dieciséis análisis que nos permiten revelar y comparar el contenido de grandes corpus de texto. WIMBD se basa en dos capacidades básicas —conteo y búsqueda— a gran escala, lo que nos permite analizar más de 35 terabytes en un nodo de computación estándar. Aplicamos WIMBD a diez corpus diferentes utilizados para entrenar modelos de lenguaje populares, incluyendo C4, The Pile y RedPajama. Nuestro análisis revela varios hallazgos sorprendentes y previamente no documentados sobre estos corpus, incluyendo la alta prevalencia de contenido duplicado, sintético y de baja calidad, información personal identificable, lenguaje tóxico y contaminación de benchmarks. Por ejemplo, encontramos que alrededor del 50% de los documentos en RedPajama y LAION-2B-en son duplicados. Además, varios conjuntos de datos utilizados para evaluar modelos entrenados en dichos corpus están contaminados con respecto a benchmarks importantes, incluyendo el Winograd Schema Challenge y partes de GLUE y SuperGLUE. Hacemos público el código y los artefactos de WIMBD para proporcionar un conjunto estándar de evaluaciones para nuevos corpus basados en texto y fomentar más análisis y transparencia en torno a ellos: github.com/allenai/wimbd.
Recientemente, la generación de videos ha logrado avances significativos con resultados realistas. Sin embargo, los videos generados por IA existentes suelen ser clips muy cortos ("a nivel de toma") que representan una sola escena. Para ofrecer un video largo coherente ("a nivel de historia"), es deseable contar con efectos de transición y predicción creativos entre diferentes clips. Este artículo presenta un modelo de difusión de video corto a largo, SEINE, que se centra en la transición y predicción generativa. El objetivo es generar videos largos de alta calidad con transiciones fluidas y creativas entre escenas y videos de toma de duración variable. Específicamente, proponemos un modelo de difusión de video con máscara aleatoria para generar automáticamente transiciones basadas en descripciones textuales. Al proporcionar las imágenes de diferentes escenas como entradas, combinadas con control basado en texto, nuestro modelo genera videos de transición que garantizan coherencia y calidad visual. Además, el modelo puede extenderse fácilmente a diversas tareas, como animación de imagen a video y predicción de video autorregresiva. Para realizar una evaluación exhaustiva de esta nueva tarea generativa, proponemos tres criterios de evaluación para transiciones fluidas y creativas: consistencia temporal, similitud semántica y alineación semántica entre video y texto. Experimentos extensos validan la efectividad de nuestro enfoque sobre los métodos existentes para transición y predicción generativa, permitiendo la creación de videos largos a nivel de historia. Página del proyecto: https://vchitect.github.io/SEINE-project/.
Para procesar oraciones novedosas, los modelos de lenguaje (LMs) deben generalizar de manera composicional: combinar elementos familiares en nuevas formas. ¿Qué aspectos de la estructura de un modelo promueven la generalización composicional? Centrándonos en los transformadores, probamos la hipótesis, motivada por trabajos teóricos y empíricos recientes, de que los transformadores generalizan de manera más composicional cuando son más profundos (tienen más capas). Dado que simplemente agregar capas aumenta el número total de parámetros, confundiendo profundidad y tamaño, construimos tres clases de modelos que intercambian profundidad por anchura, de modo que el número total de parámetros se mantenga constante (41M, 134M y 374M parámetros). Preentrenamos todos los modelos como LMs y los ajustamos en tareas que prueban la generalización composicional. Reportamos tres conclusiones principales: (1) después del ajuste fino, los modelos más profundos generalizan mejor fuera de distribución que los modelos más superficiales, pero el beneficio relativo de capas adicionales disminuye rápidamente; (2) dentro de cada familia, los modelos más profundos muestran un mejor rendimiento en modelado de lenguaje, pero los retornos disminuyen de manera similar; (3) los beneficios de la profundidad para la generalización composicional no pueden atribuirse únicamente a un mejor rendimiento en modelado de lenguaje o en datos dentro de la distribución.
ChipNeMo tiene como objetivo explorar las aplicaciones de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para el diseño industrial de chips. En lugar de implementar directamente LLMs comerciales o de código abierto disponibles en el mercado, adoptamos las siguientes técnicas de adaptación de dominio: tokenizadores personalizados, preentrenamiento continuo adaptado al dominio, ajuste fino supervisado (SFT) con instrucciones específicas del dominio y modelos de recuperación adaptados al dominio. Evaluamos estos métodos en tres aplicaciones seleccionadas de LLMs para el diseño de chips: un chatbot de asistencia para ingeniería, generación de scripts EDA, y resumen y análisis de errores. Nuestros resultados muestran que estas técnicas de adaptación de dominio permiten mejoras significativas en el rendimiento de los LLMs en comparación con los modelos base de propósito general en las tres aplicaciones evaluadas, logrando una reducción de hasta 5 veces en el tamaño del modelo con un rendimiento similar o mejor en una variedad de tareas de diseño. Nuestros hallazgos también indican que aún existe margen de mejora entre los resultados actuales y los resultados ideales. Creemos que una investigación más profunda sobre los enfoques de LLMs adaptados al dominio ayudará a cerrar esta brecha en el futuro.
La evaluación automática de la inteligencia de agentes basados en LLM (Modelos de Lenguaje de Gran Escala) es fundamental para el desarrollo de agentes avanzados basados en LLM. Aunque se ha dedicado un esfuerzo considerable a la creación de conjuntos de datos de evaluación anotados por humanos, como AlpacaEval, las técnicas existentes son costosas, consumen mucho tiempo y carecen de adaptabilidad. En este artículo, inspirados en el popular juego de lenguaje "¿Quién es el espía?", proponemos utilizar el juego de adivinanza de palabras para evaluar el desempeño de la inteligencia de los LLM. Dada una palabra, se le pide al LLM que la describa y determine su identidad (espía o no) basándose en su propia descripción y en las de otros jugadores. Idealmente, un agente avanzado debería poseer la capacidad de describir con precisión una palabra dada utilizando una descripción agresiva, mientras maximiza la confusión en la descripción conservadora, mejorando así su participación en el juego. Con este fin, primero desarrollamos DEEP para evaluar las habilidades de expresión y disfraz de los LLM. DEEP requiere que el LLM describa una palabra en modos agresivo y conservador. Luego, presentamos SpyGame, un marco interactivo de múltiples agentes diseñado para evaluar la inteligencia de los LLM a través de la participación en un juego de mesa competitivo basado en el lenguaje. Al incorporar la interacción de múltiples agentes, SpyGame exige que el LLM objetivo posea habilidades lingüísticas y pensamiento estratégico, proporcionando una evaluación más completa de las habilidades cognitivas similares a las humanas y la adaptabilidad de los LLM en situaciones de comunicación complejas. El marco de evaluación propuesto es muy fácil de implementar. Recopilamos palabras de múltiples fuentes, dominios e idiomas y utilizamos el marco de evaluación propuesto para realizar experimentos. Experimentos extensos demuestran que DEEP y SpyGame evalúan eficazmente las capacidades de varios LLM, capturando su capacidad para adaptarse a situaciones novedosas y participar en comunicaciones estratégicas.