Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje (LMs, por sus siglas en inglés) se han vuelto omnipresentes tanto en la investigación de PLN como en las ofertas de productos comerciales. A medida que su importancia comercial ha aumentado, los modelos más potentes se han cerrado, restringidos detrás de interfaces propietarias, sin revelar detalles importantes sobre sus datos de entrenamiento, arquitecturas y desarrollo. Dada la relevancia de estos detalles para el estudio científico de estos modelos, incluyendo sus sesgos y riesgos potenciales, creemos que es esencial que la comunidad de investigación tenga acceso a modelos de lenguaje potentes y verdaderamente abiertos. Con este fin, este informe técnico detalla la primera versión de OLMo, un modelo de lenguaje de última generación y verdaderamente abierto, junto con su marco para construir y estudiar la ciencia del modelado del lenguaje. A diferencia de la mayoría de los esfuerzos previos que solo han liberado los pesos del modelo y el código de inferencia, publicamos OLMo y todo el marco, incluyendo los datos de entrenamiento y el código de entrenamiento y evaluación. Esperamos que esta liberación empodere y fortalezca a la comunidad de investigación abierta e inspire una nueva ola de innovación.
Los modelos de lenguaje se han convertido en una tecnología crucial para abordar una amplia gama de tareas de procesamiento de lenguaje natural, sin embargo, muchos detalles sobre cómo se desarrollaron los modelos de lenguaje de mejor rendimiento no se reportan. En particular, la información sobre sus corpus de preentrenamiento rara vez se discute: los modelos de lenguaje comerciales casi nunca proporcionan información sobre sus datos; incluso los modelos abiertos rara vez publican los conjuntos de datos en los que se entrenan, o una receta exacta para reproducirlos. Como resultado, es difícil llevar a cabo ciertas líneas de investigación en modelado de lenguaje, como comprender cómo los datos de entrenamiento impactan las capacidades del modelo y moldean sus limitaciones. Para facilitar la investigación abierta sobre el preentrenamiento de modelos de lenguaje, lanzamos Dolma, un corpus en inglés de tres billones de tokens, construido a partir de una mezcla diversa de contenido web, artículos científicos, código, libros de dominio público, redes sociales y materiales enciclopédicos. Además, liberamos nuestro kit de herramientas de curación de datos para permitir más experimentación y reproducción de nuestro trabajo. En este informe, documentamos Dolma, incluyendo sus principios de diseño, detalles sobre su construcción y un resumen de su contenido. Intercalamos este informe con análisis y resultados experimentales del entrenamiento de modelos de lenguaje en estados intermedios de Dolma para compartir lo que hemos aprendido sobre prácticas importantes de curación de datos, incluyendo el papel de los filtros de contenido o calidad, la deduplicación y la mezcla de múltiples fuentes. Dolma se ha utilizado para entrenar OLMo, un modelo de lenguaje abierto y de vanguardia, junto con un marco diseñado para construir y estudiar la ciencia del modelado de lenguaje.
Presentamos CroissantLLM, un modelo de lenguaje de 1.3B parámetros preentrenado en un conjunto de 3 billones de tokens en inglés y francés, con el objetivo de ofrecer a la comunidad investigadora e industrial un modelo bilingüe de alto rendimiento, completamente de código abierto, que se ejecuta rápidamente en hardware local de consumo. Para ello, innovamos con el enfoque de entrenar un modelo intrínsecamente bilingüe utilizando una proporción 1:1 de datos de preentrenamiento en inglés y francés, un tokenizador personalizado y conjuntos de datos de ajuste fino bilingües. Publicamos el conjunto de datos de entrenamiento, que incluye notablemente una división en francés con fuentes de datos variadas, de alta calidad y curadas manualmente. Para evaluar el rendimiento fuera del inglés, creamos un nuevo punto de referencia, FrenchBench, que consiste en una variedad de tareas de clasificación y generación, cubriendo diversos aspectos ortogonales del rendimiento del modelo en el idioma francés. Además, basándonos en la transparencia y para fomentar la investigación en modelos de lenguaje de gran escala, publicamos bases de código, docenas de puntos de control en varios tamaños de modelo, distribuciones de datos de entrenamiento y pasos de entrenamiento, así como modelos de chat ajustados y modelos de traducción robustos. Evaluamos nuestro modelo a través del marco FMTI y validamos el 81% de los criterios de transparencia, superando ampliamente las puntuaciones de incluso la mayoría de las iniciativas abiertas. Este trabajo enriquece el panorama de la PNL, alejándose de trabajos anteriores centrados en el inglés para fortalecer nuestra comprensión de la multilingüidad en los modelos de lenguaje.
Comprender el contexto es clave para entender el lenguaje humano, una habilidad que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado cada vez más de manera impresionante. Sin embargo, aunque la evaluación de los LLMs abarca diversos dominios dentro del ámbito del Procesamiento del Lenguaje Natural, se ha prestado poca atención a examinar su capacidad lingüística para comprender características contextuales. Este artículo introduce un punto de referencia para la comprensión del contexto adaptando conjuntos de datos existentes para evaluar modelos generativos. Este punto de referencia consta de cuatro tareas distintas y nueve conjuntos de datos, todos con indicaciones diseñadas para evaluar la capacidad de los modelos para entender el contexto. Primero, evaluamos el rendimiento de los LLMs en el escenario de aprendizaje en contexto durante la fase de preentrenamiento. Los resultados experimentales indican que los modelos densos preentrenados tienen dificultades para comprender características contextuales más sutiles en comparación con los modelos ajustados más avanzados. Segundo, dado que la compresión de LLMs adquiere una importancia creciente tanto en la investigación como en aplicaciones del mundo real, evaluamos la comprensión del contexto en modelos cuantificados bajo configuraciones de aprendizaje en contexto. Descubrimos que la cuantización posterior al entrenamiento de 3 bits conduce a reducciones variables en el rendimiento en nuestro punto de referencia. Realizamos un análisis exhaustivo de estos escenarios para respaldar nuestros resultados experimentales.
Presentamos evidencia de un beneficio sustancial de la exploración eficiente en la recopilación de retroalimentación humana para mejorar los modelos de lenguaje a gran escala. En nuestros experimentos, un agente genera consultas de manera secuencial mientras ajusta un modelo de recompensa a la retroalimentación recibida. Nuestro agente de mejor rendimiento genera consultas utilizando el muestreo doble de Thompson, con la incertidumbre representada por una red neuronal epistémica. Nuestros resultados demuestran que la exploración eficiente permite alcanzar altos niveles de rendimiento con muchas menos consultas. Además, tanto la estimación de la incertidumbre como la elección del esquema de exploración desempeñan roles críticos.
Presentamos SymbolicAI, un marco versátil y modular que emplea un enfoque basado en lógica para el aprendizaje de conceptos y la gestión de flujos en procesos generativos. SymbolicAI permite la integración fluida de modelos generativos con una amplia gama de solucionadores al tratar los modelos de lenguaje grandes (LLMs) como analizadores semánticos que ejecutan tareas basadas en instrucciones tanto en lenguaje natural como formal, cerrando así la brecha entre el razonamiento simbólico y la IA generativa. Aprovechamos los principios de la programación probabilística para abordar tareas complejas, y utilizamos paradigmas de programación diferenciable y clásica con sus respectivas fortalezas. El marco introduce un conjunto de operaciones polimórficas, composicionales y autorreferenciales para la manipulación de flujos de datos, alineando las salidas de los LLMs con los objetivos del usuario. Como resultado, podemos transitar entre las capacidades de varios modelos base dotados de habilidades de aprendizaje zero-shot y few-shot, y modelos especializados o solucionadores ajustados específicamente para abordar problemas concretos. A su vez, el marco facilita la creación y evaluación de grafos computacionales explicables. Concluimos introduciendo una medida de calidad y su puntuación empírica para evaluar estos grafos computacionales, y proponemos un benchmark que compara varios LLMs de última generación en un conjunto de flujos de trabajo complejos. Nos referimos a la puntuación empírica como "Vector Embedding for Relational Trajectory Evaluation through Cross-similarity", o puntuación VERTEX para abreviar. El código base del marco y el benchmark se encuentran enlazados a continuación.
El desaprendizaje automático ha surgido como un nuevo paradigma para olvidar deliberadamente muestras de datos de un modelo dado, con el fin de cumplir con regulaciones estrictas. Sin embargo, los métodos existentes de desaprendizaje automático se han centrado principalmente en modelos de clasificación, dejando relativamente inexplorado el panorama del desaprendizaje para modelos generativos. Este artículo sirve como un puente, abordando esta brecha al proporcionar un marco unificador de desaprendizaje automático para modelos generativos de imagen a imagen. Dentro de este marco, proponemos un algoritmo computacionalmente eficiente, respaldado por un análisis teórico riguroso, que demuestra una degradación de rendimiento insignificante en las muestras retenidas, mientras elimina efectivamente la información de las muestras olvidadas. Estudios empíricos en dos conjuntos de datos a gran escala, ImageNet-1K y Places-365, muestran además que nuestro algoritmo no depende de la disponibilidad de las muestras retenidas, lo que cumple aún más con las políticas de retención de datos. Hasta donde sabemos, este trabajo es el primero que representa exploraciones sistémicas, teóricas y empíricas de desaprendizaje automático específicamente adaptado para modelos generativos de imagen a imagen. Nuestro código está disponible en https://github.com/jpmorganchase/l2l-generator-unlearning.
Un enfoque común para alinear los modelos de lenguaje con las preferencias humanas consiste en primero aprender un modelo de recompensa a partir de datos de preferencias, y luego utilizar este modelo de recompensa para actualizar el modelo de lenguaje. Estudiamos dos problemas estrechamente relacionados que surgen en este enfoque. Primero, cualquier transformación monótona del modelo de recompensa preserva el orden de preferencias; ¿existe una elección que sea "mejor" que otras? Segundo, a menudo deseamos alinear los modelos de lenguaje con múltiples propiedades: ¿cómo deberíamos combinar múltiples modelos de recompensa? Utilizando una interpretación probabilística del procedimiento de alineación, identificamos una elección natural para la transformación en el caso común de recompensas aprendidas a partir de modelos de preferencias de Bradley-Terry. Esta transformación derivada tiene dos propiedades importantes. Primero, enfatiza la mejora de salidas con bajo rendimiento, en lugar de aquellas que ya obtienen puntuaciones altas. Esto mitiga tanto el subajuste (donde algunas indicaciones no mejoran) como el hackeo de recompensas (donde el modelo aprende a explotar la mala especificación del modelo de recompensa). Segundo, permite una agregación fundamentada de recompensas al vincular la suma con la conjunción lógica: la suma de las recompensas transformadas corresponde a la probabilidad de que la salida sea "buena" en todas las propiedades medidas, en un sentido que precisamos. Los experimentos de alineación de modelos de lenguaje para ser tanto útiles como inofensivos utilizando RLHF muestran mejoras sustanciales sobre el enfoque base (sin transformación).
Presentamos Amortized Text-to-Mesh (AToM), un marco de texto-a-malla de propagación directa optimizado simultáneamente para múltiples indicaciones de texto. A diferencia de los métodos existentes de texto-a-3D, que a menudo implican una optimización lenta por indicación y comúnmente generan representaciones distintas a mallas poligonales, AToM genera directamente mallas texturizadas de alta calidad en menos de 1 segundo, con una reducción de aproximadamente 10 veces en el costo de entrenamiento, y generaliza a indicaciones no vistas. Nuestra idea clave es una arquitectura novedosa de texto-a-malla basada en triplanos con una estrategia de optimización amortizada en dos etapas que garantiza un entrenamiento estable y permite escalabilidad. A través de extensos experimentos en varios benchmarks de indicaciones, AToM supera significativamente a los enfoques amortizados más avanzados, con una precisión más de 4 veces mayor (en el conjunto de datos DF415) y produce salidas 3D más distinguibles y de mayor calidad. AToM demuestra una fuerte generalizabilidad, ofreciendo activos 3D detallados para indicaciones interpoladas no vistas sin necesidad de optimización adicional durante la inferencia, a diferencia de las soluciones por indicación.
Este trabajo presenta EE-Tuning, una solución ligera y económica para el entrenamiento/ajuste de modelos de lenguaje grandes (LLMs) con salida temprana. A diferencia del enfoque común de preentrenamiento de parámetros completos, EE-Tuning amplía cualquier LLM estándar preentrenado (y posiblemente ajustado) con capas adicionales de salida temprana que se ajustan de manera eficiente en parámetros, lo que requiere significativamente menos recursos computacionales y datos de entrenamiento. Nuestra implementación de EE-Tuning logra una eficiencia de entrenamiento sobresaliente mediante optimizaciones extensas de rendimiento, así como escalabilidad debido a su completa compatibilidad con el paralelismo 3D. Los resultados de experimentos sistemáticos validan la eficacia de EE-Tuning, confirmando que se puede lograr una inferencia efectiva de LLMs con salida temprana con un presupuesto de entrenamiento limitado. Con la esperanza de hacer accesibles los LLMs con salida temprana a la comunidad, publicamos el código fuente de nuestra implementación de EE-Tuning en https://github.com/pan-x-c/EE-LLM.