Artículos de investigación en IA seleccionados diariamente con traducciones
El creciente interés en los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) ha sido impulsado por las mejoras en los modelos de lenguaje de gran escala y los transformadores de visión. A pesar de la abundante literatura sobre este tema, observamos que las decisiones críticas relacionadas con el diseño de los VLMs a menudo no están justificadas. Argumentamos que estas decisiones no fundamentadas obstaculizan el progreso en el campo, ya que dificultan identificar qué elecciones mejoran el rendimiento del modelo. Para abordar este problema, realizamos experimentos exhaustivos en torno a modelos preentrenados, elección de arquitectura, datos y métodos de entrenamiento. Nuestra consolidación de hallazgos incluye el desarrollo de Idefics2, un VLM fundamental eficiente de 8 mil millones de parámetros. Idefics2 logra un rendimiento de vanguardia dentro de su categoría de tamaño en varios benchmarks multimodales, y a menudo se equipara con modelos cuatro veces más grandes. Publicamos el modelo (base, instruido y de chat) junto con los conjuntos de datos creados para su entrenamiento.
Presentamos el flujo de trabajo del Aprendizaje por Refuerzo Iterativo en Línea a partir de Retroalimentación Humana (RLHF) en este informe técnico, el cual ha sido ampliamente reportado como superior a su contraparte fuera de línea por un margen significativo en la literatura reciente sobre modelos de lenguaje grandes (LLM). Sin embargo, los proyectos de RLHF de código abierto existentes aún se encuentran mayormente limitados al entorno de aprendizaje fuera de línea. En este informe técnico, nuestro objetivo es llenar este vacío y proporcionar una receta detallada que sea fácil de reproducir para el RLHF iterativo en línea. En particular, dado que la retroalimentación humana en línea suele ser inviable para comunidades de código abierto con recursos limitados, comenzamos construyendo modelos de preferencia utilizando un conjunto diverso de conjuntos de datos de código abierto y empleamos el modelo de preferencia proxy construido para aproximar la retroalimentación humana. Luego, discutimos los fundamentos teóricos y los principios algorítmicos detrás del RLHF iterativo en línea, seguidos de una implementación práctica detallada. Nuestro LLM entrenado, SFR-Iterative-DPO-LLaMA-3-8B-R, logra un rendimiento impresionante en benchmarks de chatbots de LLM, incluyendo AlpacaEval-2, Arena-Hard y MT-Bench, así como en otros benchmarks académicos como HumanEval y TruthfulQA. Hemos demostrado que el ajuste fino supervisado (SFT) y el RLHF iterativo pueden alcanzar un rendimiento de vanguardia utilizando conjuntos de datos completamente de código abierto. Además, hemos puesto a disposición del público nuestros modelos, conjuntos de datos curados y guías de código paso a paso completas. Para obtener información más detallada, consulte https://github.com/RLHFlow/RLHF-Reward-Modeling y https://github.com/RLHFlow/Online-RLHF.
En este artículo presentamos SUTRA, una arquitectura de modelo de lenguaje grande (LLM) multilingüe capaz de comprender, razonar y generar texto en más de 50 idiomas. El diseño de SUTRA desacopla de manera única la comprensión conceptual central del procesamiento específico del idioma, lo que facilita una alineación y aprendizaje multilingüe escalable y eficiente. Al emplear un marco de Mezcla de Expertos tanto en el procesamiento de idiomas como de conceptos, SUTRA demuestra eficiencia computacional y capacidad de respuesta. A través de evaluaciones exhaustivas, se demuestra que SUTRA supera a modelos existentes como GPT-3.5 y Llama2 en un 20-30% en los principales puntos de referencia de Comprensión Masiva de Tareas Multilingües (MMLU) para tareas multilingües. Los modelos SUTRA también son LLM en línea que pueden utilizar conocimiento de internet para proporcionar respuestas libres de alucinaciones, factuales y actualizadas, manteniendo sus capacidades multilingües. Además, exploramos las implicaciones más amplias de su arquitectura para el futuro de la IA multilingüe, destacando su potencial para democratizar el acceso a la tecnología de IA a nivel global y mejorar la equidad y utilidad de la IA en regiones con idiomas predominantemente no ingleses. Nuestros hallazgos sugieren que SUTRA no solo llena brechas clave en las capacidades de los modelos multilingües, sino que también establece un nuevo estándar en eficiencia operativa y escalabilidad para aplicaciones de IA.
Los modelos de lenguaje monolíticos de gran escala (LLMs, por sus siglas en inglés) como GPT-4 han allanado el camino para las aplicaciones modernas de IA generativa. Sin embargo, entrenar, servir y mantener LLMs monolíticos a gran escala sigue siendo prohibitivamente costoso y desafiante. El aumento desproporcionado en la relación computación-memoria de los aceleradores de IA modernos ha creado una "barrera de memoria", lo que ha hecho necesario desarrollar nuevos métodos para implementar la IA. La Composición de Expertos (CoE, por sus siglas en inglés) es un enfoque modular alternativo que reduce el costo y la complejidad del entrenamiento y la implementación. No obstante, este enfoque presenta dos desafíos clave cuando se utiliza hardware convencional: (1) sin operaciones fusionadas, los modelos más pequeños tienen una menor intensidad operativa, lo que dificulta alcanzar una alta utilización; y (2) alojar un gran número de modelos puede ser prohibitivamente costoso o lento al cambiar dinámicamente entre ellos. En este artículo, describimos cómo la combinación de CoE, flujo de datos en streaming y un sistema de memoria de tres niveles escala la barrera de memoria de la IA. Presentamos Samba-CoE, un sistema CoE con 150 expertos y un billón de parámetros en total. Implementamos Samba-CoE en la Unidad de Flujo de Datos Reconfigurable (RDU, por sus siglas en inglés) SN40L de SambaNova, una arquitectura de acelerador de flujo de datos comercial que ha sido co-diseñada para aplicaciones empresariales de inferencia y entrenamiento. El chip introduce un nuevo sistema de memoria de tres niveles con SRAM distribuida en el chip, HBM en el paquete y DRAM DDR fuera del paquete. Una red inter-RDU dedicada permite escalar vertical y horizontalmente a través de múltiples sockets. Demostramos aceleraciones que van de 2x a 13x en varios benchmarks ejecutados en ocho sockets RDU en comparación con una línea base no fusionada. Mostramos que, para implementaciones de inferencia de CoE, el nodo RDU de 8 sockets reduce la huella de la máquina hasta 19x, acelera el tiempo de cambio de modelo entre 15x y 31x, y logra una aceleración general de 3.7x sobre un DGX H100 y 6.6x sobre un DGX A100.
Los recientes avances en modelos de gran escala han destacado la importancia crítica de la escala de datos, las etiquetas y las modalidades. En este artículo, presentamos MS MARCO Web Search, el primer conjunto de datos web a gran escala rico en información, que incluye millones de etiquetas de consultas-documentos con clics reales. Este conjunto de datos imita de cerca la distribución de documentos y consultas del mundo real, proporciona información valiosa para diversos tipos de tareas posteriores y fomenta la investigación en áreas como modelos de indexación neuronal de extremo a extremo, modelos de embeddings genéricos y sistemas de acceso a información de próxima generación con modelos de lenguaje de gran escala. MS MARCO Web Search ofrece un punto de referencia para la recuperación de información con tres tareas de desafío en la recuperación web que requieren innovaciones tanto en el aprendizaje automático como en los dominios de investigación de sistemas de recuperación de información. Como el primer conjunto de datos que cumple con los requisitos de ser grande, real y rico en información, MS MARCO Web Search allana el camino para futuros avances en la investigación de IA y sistemas. El conjunto de datos MS MARCO Web Search está disponible en: https://github.com/microsoft/MS-MARCO-Web-Search.
El notable progreso de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) ha atraído una atención significativa debido a su rendimiento superior en contextos visuales. Sin embargo, sus capacidades para convertir figuras visuales en código ejecutable no han sido evaluadas exhaustivamente. Para abordar esto, presentamos Plot2Code, un benchmark integral de codificación visual diseñado para una evaluación justa y profunda de los MLLMs. Recopilamos cuidadosamente 132 gráficos de alta calidad seleccionados manualmente en matplotlib, abarcando seis tipos de gráficos, provenientes de galerías públicas de matplotlib. Para cada gráfico, proporcionamos su código fuente y una instrucción descriptiva resumida por GPT-4. Este enfoque permite que Plot2Code evalúe extensamente las capacidades de codificación de los MLLMs en diversas modalidades de entrada. Además, proponemos tres métricas de evaluación automática, que incluyen la tasa de aprobación del código, la proporción de coincidencia de texto y la calificación general de GPT-4V, para una evaluación detallada del código generado y las imágenes renderizadas. En lugar de simplemente juzgar como aprobado o fallido, empleamos GPT-4V para realizar un juicio general entre las imágenes generadas y las de referencia, lo cual ha demostrado ser consistente con la evaluación humana. Los resultados de la evaluación, que incluyen análisis de 14 MLLMs como el propietario GPT-4V, Gemini-Pro y el de código abierto Mini-Gemini, destacan los desafíos sustanciales que presenta Plot2Code. Con Plot2Code, revelamos que la mayoría de los MLLMs existentes tienen dificultades con la codificación visual para gráficos con mucho texto, dependiendo en gran medida de las instrucciones textuales. Esperamos que los resultados de la evaluación de Plot2Code sobre la codificación visual guíen el desarrollo futuro de los MLLMs. Todos los datos relacionados con Plot2Code están disponibles en https://huggingface.co/datasets/TencentARC/Plot2Code.
En este informe presentamos Piccolo2, un modelo de embeddings que supera a otros modelos en la evaluación integral de 6 tareas en el benchmark CMTEB, estableciendo un nuevo estado del arte. Piccolo2 aprovecha principalmente un enfoque de entrenamiento eficiente con pérdida híbrida multitarea, utilizando de manera efectiva datos textuales y etiquetas de diversas tareas posteriores. Además, Piccolo2 amplía la dimensión de los embeddings y emplea entrenamiento MRL para admitir dimensiones vectoriales más flexibles. La información más reciente sobre los modelos Piccolo puede consultarse en: https://huggingface.co/sensenova/
Los logotipos animados son una forma atractiva y omnipresente en que individuos y marcas se representan en línea. Crear manualmente estos logotipos puede requerir habilidades artísticas y esfuerzo significativos. Para ayudar a diseñadores novatos a animar logotipos, las herramientas de diseño actualmente ofrecen plantillas y preajustes de animación. Sin embargo, estas soluciones pueden ser limitadas en su rango expresivo. Los modelos de lenguaje grandes tienen el potencial de ayudar a diseñadores novatos a crear logotipos animados generando código de animación que se adapta a su contenido. En este artículo, presentamos LogoMotion, un sistema basado en modelos de lenguaje grande que toma un documento en capas y genera logotipos animados mediante síntesis de programas visualmente fundamentada. Introducimos técnicas para crear una representación HTML de un lienzo, identificar elementos primarios y secundarios, sintetizar código de animación y depurar visualmente errores de animación. Al compararlo con una herramienta estándar de la industria, encontramos que LogoMotion produce animaciones que son más conscientes del contenido y están a la par en términos de calidad. Concluimos con una discusión sobre las implicaciones de la animación generada por modelos de lenguaje grande para el diseño de movimiento.
El desarrollo de modelos de dominio es uno de los pocos ámbitos que aún requieren trabajo manual en la planificación de IA. Por lo tanto, para hacer que la planificación sea más accesible, es deseable automatizar el proceso de generación de modelos de dominio. Con este fin, investigamos si los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden utilizarse para generar modelos de dominio de planificación a partir de descripciones textuales simples. Específicamente, introducimos un marco para la evaluación automatizada de dominios generados por LLMs mediante la comparación de conjuntos de planes para instancias de dominio. Finalmente, realizamos un análisis empírico de 7 modelos de lenguaje de gran escala, incluyendo modelos de codificación y chat, en 9 dominios de planificación diferentes y bajo tres clases de descripciones de dominio en lenguaje natural. Nuestros resultados indican que los LLMs, particularmente aquellos con un alto número de parámetros, muestran un nivel moderado de competencia en la generación de dominios de planificación correctos a partir de descripciones en lenguaje natural. Nuestro código está disponible en https://github.com/IBM/NL2PDDL.