Artículos de investigación en IA seleccionados diariamente con traducciones
Continuamos la investigación sobre el potencial de los modelos de lenguaje basados en Transformers de menor tamaño, iniciada por TinyStories —un modelo de 10 millones de parámetros capaz de generar inglés coherente— y el trabajo posterior sobre phi-1, un modelo de 1.3 mil millones de parámetros con un rendimiento en codificación Python cercano al estado del arte. Este último trabajo propuso utilizar modelos de lenguaje grandes (LLMs) existentes para generar datos de "calidad de libro de texto" como una forma de mejorar el proceso de aprendizaje en comparación con los datos web tradicionales. Seguimos el enfoque de "Los libros de texto son todo lo que necesitas", centrándonos esta vez en el razonamiento de sentido común en lenguaje natural, y creamos un nuevo modelo de 1.3 mil millones de parámetros llamado phi-1.5, con un rendimiento en tareas de lenguaje natural comparable a modelos 5 veces más grandes, y superando a la mayoría de los LLMs no punteros en tareas de razonamiento más complejas, como matemáticas de nivel escolar básico y codificación elemental. En términos más generales, phi-1.5 exhibe muchas de las características de LLMs mucho más grandes, tanto positivas —como la capacidad de "pensar paso a paso" o realizar cierto aprendizaje contextual rudimentario— como negativas, incluidas las alucinaciones y el potencial para generar contenido tóxico y sesgado. Sin embargo, de manera alentadora, estamos viendo mejoras en ese aspecto gracias a la ausencia de datos web. Hemos liberado phi-1.5 como código abierto para promover más investigación sobre estos temas urgentes.
Si bien recientemente los Modelos de Lenguaje Multimodales de Gran Escala (MM-LLMs, por sus siglas en inglés) han logrado avances emocionantes, en su mayoría caen en la limitación de comprender solo la entrada multimodal, sin la capacidad de generar contenido en múltiples modalidades. Dado que los humanos siempre percibimos el mundo y nos comunicamos a través de diversas modalidades, desarrollar MM-LLMs de cualquier-a-cualquier modalidad, capaces de aceptar y entregar contenido en cualquier modalidad, se vuelve esencial para alcanzar una IA de nivel humano. Para llenar este vacío, presentamos NExT-GPT, un sistema MM-LLM de propósito general y de extremo a extremo que funciona en cualquier-a-cualquier modalidad. Conectamos un LLM con adaptadores multimodales y diferentes decodificadores de difusión, lo que permite a NExT-GPT percibir entradas y generar salidas en combinaciones arbitrarias de texto, imágenes, videos y audio. Al aprovechar codificadores y decodificadores existentes altamente eficientes y bien entrenados, NExT-GPT se ajusta con solo una pequeña cantidad de parámetros (1%) en ciertas capas de proyección, lo que no solo beneficia un entrenamiento de bajo costo, sino que también facilita una expansión conveniente a más modalidades potenciales. Además, introducimos un ajuste por instrucciones de cambio de modalidad (MosIT) y seleccionamos manualmente un conjunto de datos de alta calidad para MosIT, en base al cual NExT-GPT se potencia con una comprensión semántica compleja entre modalidades y la generación de contenido. En general, nuestra investigación muestra la posibilidad prometedora de construir un agente de IA capaz de modelar modalidades universales, allanando el camino para una investigación en IA más similar a la humana en la comunidad.
Presentamos MADLAD-400, un conjunto de datos monolingüe de dominio general de 3T tokens, auditado manualmente y basado en CommonCrawl, que abarca 419 idiomas. Discutimos las limitaciones reveladas por la autoevaluación de MADLAD-400 y el papel que tuvo la auditoría de datos en el proceso de creación del conjunto de datos. Luego, entrenamos y publicamos un modelo de traducción automática multilingüe de 10.7 mil millones de parámetros en 250 mil millones de tokens que cubre más de 450 idiomas utilizando datos disponibles públicamente, y encontramos que es competitivo con modelos significativamente más grandes, y reportamos los resultados en diferentes dominios. Además, entrenamos un modelo de lenguaje de 8 mil millones de parámetros y evaluamos los resultados en traducción con pocos ejemplos. Ponemos los modelos de referencia a disposición de la comunidad investigadora.
En este trabajo, utilizamos modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para ampliar y acelerar la investigación sobre el problema P versus NP, uno de los problemas abiertos más importantes en la ciencia de la computación teórica y las matemáticas. Específicamente, proponemos el razonamiento socrático, un marco general que fomenta el pensamiento profundo con LLMs para la resolución de problemas complejos. El razonamiento socrático incentiva a los LLMs a descubrir, resolver e integrar problemas de manera recursiva, al mismo tiempo que facilita la autoevaluación y el refinamiento. Nuestro estudio piloto sobre el problema P vs. NP muestra que GPT-4 produce exitosamente un esquema de prueba y participa en un razonamiento riguroso a lo largo de 97 turnos de diálogo, concluyendo que "P ≠ NP", lo cual está en línea con (Xu y Zhou, 2023). La investigación revela perspectivas novedosas dentro del extenso espacio de soluciones de los LLMs, arrojando luz sobre el uso de LLMs para la ciencia.
Analizamos una familia de modelos de lenguaje grande de una manera tan ligera que puede realizarse en una sola GPU. Específicamente, nos enfocamos en la familia de modelos OPT, que van desde 125 millones hasta 66 mil millones de parámetros, y nos basamos únicamente en si una neurona de la red feed-forward (FFN) se activa o no. En primer lugar, encontramos que la parte inicial de la red es dispersa y representa muchas características discretas. Aquí, muchas neuronas (más del 70% en algunas capas del modelo de 66 mil millones) están "muertas", es decir, nunca se activan en una gran colección de datos diversos. Al mismo tiempo, muchas de las neuronas activas están reservadas para características discretas y actúan como detectores de tokens y n-gramas. Curiosamente, sus actualizaciones correspondientes en la FFN no solo promueven candidatos para el siguiente token, como podría esperarse, sino que también se enfocan explícitamente en eliminar la información sobre los tokens que las activan, es decir, la entrada actual. Hasta donde sabemos, este es el primer ejemplo de mecanismos especializados en eliminar (en lugar de agregar) información del flujo residual. Con el aumento de escala, los modelos se vuelven más dispersos en el sentido de que tienen más neuronas muertas y detectores de tokens. Finalmente, algunas neuronas son posicionales: su activación depende en gran medida (o únicamente) de la posición y menos (o nada) de los datos textuales. Encontramos que los modelos más pequeños tienen conjuntos de neuronas que actúan como indicadores de rangos de posición, mientras que los modelos más grandes operan de una manera menos explícita.
Los grandes volúmenes de datos textuales han contribuido significativamente al desarrollo de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en los últimos años. Estos datos se adquieren típicamente mediante el rastreo de internet, lo que da lugar a conjuntos de datos de preentrenamiento compuestos por texto web ruidoso. Hasta la fecha, los esfuerzos para reducir estos conjuntos de datos a un subconjunto de mayor calidad se han basado en heurísticas diseñadas manualmente y codificadas como filtros basados en reglas. En este trabajo, adoptamos una perspectiva más amplia y exploramos estimaciones escalables de la calidad de los datos que pueden utilizarse para medir sistemáticamente la calidad de los datos de preentrenamiento. Realizamos una comparación rigurosa a gran escala del estimador simple de calidad de datos basado en la perplejidad, así como de estimaciones más sofisticadas y computacionalmente intensivas como la norma L2 del error y la memorización. Estas métricas se utilizan para clasificar y reducir los corpus de preentrenamiento, y posteriormente comparamos los LLMs entrenados con estos conjuntos de datos reducidos. Sorprendentemente, encontramos que la técnica simple de la perplejidad supera a nuestros métodos de puntuación más costosos computacionalmente. Mejoramos nuestra línea base sin reducción mientras entrenamos con tan solo el 30% del conjunto de datos de entrenamiento original. Nuestro trabajo sienta las bases para estrategias no exploradas en la curación automática de corpus de alta calidad y sugiere que la mayor parte de los datos de preentrenamiento pueden eliminarse sin perder rendimiento.
Los Transformers se han convertido en el modelo dominante en el aprendizaje profundo, pero la razón de su rendimiento superior es poco comprendida. Aquí, planteamos la hipótesis de que el fuerte rendimiento de los Transformers surge de un sesgo arquitectónico hacia la mesa-optimización, un proceso aprendido que se ejecuta dentro del pase hacia adelante de un modelo y que consta de los siguientes dos pasos: (i) la construcción de un objetivo de aprendizaje interno, y (ii) su solución correspondiente encontrada mediante optimización. Para probar esta hipótesis, invertimos ingeniería en una serie de Transformers autorregresivos entrenados en tareas simples de modelado de secuencias, descubriendo algoritmos subyacentes de mesa-optimización basados en gradientes que impulsan la generación de predicciones. Además, demostramos que el algoritmo de optimización aprendido durante el pase hacia adelante puede reutilizarse inmediatamente para resolver tareas supervisadas de pocos ejemplos, lo que sugiere que la mesa-optimización podría ser la base de las capacidades de aprendizaje en contexto de los modelos de lenguaje grandes. Finalmente, proponemos una nueva capa de autoatención, la mesa-capa, que resuelve explícita y eficientemente problemas de optimización especificados en contexto. Encontramos que esta capa puede mejorar el rendimiento en experimentos sintéticos y preliminares de modelado de lenguaje, reforzando nuestra hipótesis de que la mesa-optimización es una operación importante oculta dentro de los pesos de los Transformers entrenados.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades excepcionales para realizar tareas relacionadas con el lenguaje. Sin embargo, su implementación plantea desafíos significativos debido a sus considerables requisitos de memoria y almacenamiento. En respuesta a este problema, la cuantización solo de pesos, particularmente la cuantización de 3 y 4 bits solo de pesos, ha surgido como una de las soluciones más viables. A medida que disminuye el número de bits, la cuadrícula de cuantización se amplía, lo que enfatiza la importancia del redondeo hacia arriba y hacia abajo. Si bien estudios previos han demostrado que el ajuste fino del redondeo hacia arriba y hacia abajo con la adición de perturbaciones puede mejorar la precisión en algunos escenarios, nuestra investigación se centra en el límite preciso y limitado de estas perturbaciones, donde solo el umbral para alterar el valor de redondeo es significativo. En consecuencia, proponemos un enfoque conciso y altamente efectivo para optimizar la tarea de redondeo de pesos. Nuestro método, denominado SignRound, implica un ajuste ligero por bloques utilizando el descenso de gradiente con signo, lo que nos permite obtener resultados sobresalientes en menos de 400 pasos. SignRound supera la línea de base establecida del redondeo al más cercano (RTN, por sus siglas en inglés) y compite de manera impresionante contra métodos recientes, sin introducir sobrecargas adicionales en la inferencia. El código fuente estará disponible públicamente en https://github.com/intel/neural-compressor próximamente.
Los modelos de audio-lenguaje aprenden conjuntamente representaciones multimodales de texto y audio que permiten inferencia Zero-Shot. Los modelos dependen de los codificadores para crear representaciones potentes de la entrada y generalizar a múltiples tareas que abarcan sonidos, música y habla. Aunque los modelos han logrado un rendimiento notable, aún existe una brecha de desempeño en comparación con los modelos específicos para tareas. En este artículo, proponemos un modelo de Pretraining Contrastivo de Lenguaje-Audio que se entrena previamente con una colección diversa de 4.6 millones de pares audio-texto, empleando dos codificadores innovadores para inferencia Zero-Shot. Para aprender representaciones de audio, entrenamos un codificador de audio en 22 tareas de audio, en lugar del entrenamiento estándar de clasificación de eventos sonoros. Para aprender representaciones de lenguaje, entrenamos un modelo autoregresivo de solo decodificación, en lugar de los modelos estándar de solo codificación. Luego, las representaciones de audio y lenguaje se integran en un espacio multimodal conjunto mediante Aprendizaje Contrastivo. Utilizamos nuestros codificadores para mejorar el rendimiento en tareas posteriores por un margen significativo. Evaluamos exhaustivamente la generalización de nuestras representaciones en 26 tareas posteriores, la mayor cantidad en la literatura. Nuestro modelo logra resultados de vanguardia en varias tareas, abriendo el camino hacia representaciones de audio de propósito general.
La integración de activos de mallas poligonales dentro de volúmenes de Campos de Radiancia Neural (NeRF) fotorrealistas, de modo que puedan renderizarse y simularse sus dinámicas de manera físicamente consistente con el NeRF, ha sido poco explorada desde la perspectiva del sistema de integración del NeRF en la pipeline gráfica tradicional. Este artículo diseña un acoplamiento bidireccional entre la malla y el NeRF durante la renderización y la simulación. Primero revisamos las ecuaciones de transporte de luz tanto para la malla como para el NeRF, luego las destilamos en un algoritmo eficiente para actualizar la radiancia y el rendimiento a lo largo de un rayo lanzado con un número arbitrario de rebotes. Para resolver la discrepancia entre el espacio de color lineal que asume el trazador de caminos y el espacio de color sRGB que utiliza el NeRF estándar, entrenamos el NeRF con imágenes de Alto Rango Dinámico (HDR). También presentamos una estrategia para estimar fuentes de luz y proyectar sombras sobre el NeRF. Finalmente, consideramos cómo la formulación híbrida de superficie-volumen puede integrarse eficientemente con un simulador físico de alto rendimiento que soporta telas, cuerpos rígidos y blandos. El sistema completo de renderización y simulación puede ejecutarse en una GPU a tasas interactivas. Demostramos que un enfoque de sistema híbrido supera a las alternativas en realismo visual para la inserción de mallas, ya que permite un transporte de luz realista desde los medios volumétricos del NeRF hacia las superficies, lo que afecta la apariencia de superficies reflectantes/refractantes y la iluminación de superficies difusas informadas por la escena dinámica.
Los paradigmas de aprendizaje para modelos de lenguaje de gran escala (LLMs) actualmente tienden a caer dentro de dos categorías: aprendizaje en contexto (ICL) o ajuste fino completo. Cada uno de estos enfoques conlleva sus propias compensaciones basadas en los datos disponibles, el tamaño del modelo, el costo computacional, la facilidad de uso y la calidad final, sin que ninguna solución destaque en todos los aspectos. En este artículo, primero describimos los paradigmas de ICL y ajuste fino de manera que resalten sus conexiones naturales. Basándonos en estas conexiones, proponemos un nuevo paradigma de aprendizaje llamado FIAT que fusiona lo mejor de ambos enfoques, permitiendo instrucciones diseñadas mediante ingeniería de prompts y razonamiento en cadena con los modelos más grandes, mientras también utiliza métodos similares para realizar actualizaciones de parámetros en un LLM de tamaño moderado mediante ajuste eficiente en parámetros. Evaluamos la efectividad de FIAT en una variedad de tareas multilingües y observamos que FIAT supera tanto a ICL como al ajuste fino en escalas que van desde 100 hasta 10,000 ejemplos de entrenamiento. Esperamos que FIAT ofrezca una forma práctica de aprovechar todo el potencial de los LLMs sin necesidad de elegir de manera definitiva entre paradigmas de aprendizaje.