Artículos de investigación en IA seleccionados diariamente con traducciones
El ajuste fino (finetuning) de modelos de lenguaje grandes (LLMs) en instrucciones conduce a mejoras significativas en el rendimiento de tareas de lenguaje natural. Aplicamos el ajuste por instrucciones utilizando código, aprovechando la estructura natural de los commits de Git, que emparejan cambios de código con instrucciones humanas. Compilamos CommitPack: 4 terabytes de commits de Git en 350 lenguajes de programación. Evaluamos CommitPack frente a otras instrucciones de código naturales y sintéticas (xP3x, Self-Instruct, OASST) en el modelo StarCoder de 16B parámetros, y logramos un rendimiento de vanguardia entre los modelos no entrenados con salidas de OpenAI, en el benchmark HumanEval para Python (46.2% pass@1). Además, presentamos HumanEvalPack, que amplía el benchmark HumanEval a un total de 3 tareas de codificación (Reparación de Código, Explicación de Código, Síntesis de Código) en 6 lenguajes (Python, JavaScript, Java, Go, C++, Rust). Nuestros modelos, OctoCoder y OctoGeeX, obtienen el mejor rendimiento en HumanEvalPack entre todos los modelos permisivos, demostrando los beneficios de CommitPack para generalizar a un conjunto más amplio de lenguajes y tareas de codificación natural. El código, modelos y datos están disponibles libremente en https://github.com/bigcode-project/octopack.
En los últimos años, hemos sido testigos del gran poder de los modelos de difusión de texto a imagen de gran escala, gracias a su impresionante capacidad generativa para crear imágenes de alta fidelidad. Sin embargo, generar imágenes deseadas utilizando únicamente un prompt de texto es muy complicado, ya que a menudo implica una ingeniería de prompts compleja. Una alternativa al prompt de texto es el prompt de imagen, como dice el dicho: "una imagen vale más que mil palabras". Aunque los métodos existentes de ajuste fino directo a partir de modelos preentrenados son efectivos, requieren grandes recursos computacionales y no son compatibles con otros modelos base, prompts de texto y controles estructurales. En este artículo, presentamos IP-Adapter, un adaptador eficiente y ligero para lograr la capacidad de prompt de imagen en modelos de difusión de texto a imagen preentrenados. El diseño clave de nuestro IP-Adapter es un mecanismo de atención cruzada desacoplado que separa las capas de atención cruzada para características de texto y características de imagen. A pesar de la simplicidad de nuestro método, un IP-Adapter con solo 22M de parámetros puede lograr un rendimiento comparable o incluso mejor que un modelo de prompt de imagen completamente ajustado. Dado que congelamos el modelo de difusión preentrenado, el IP-Adapter propuesto puede generalizarse no solo a otros modelos personalizados ajustados a partir del mismo modelo base, sino también a la generación controlable utilizando herramientas controlables existentes. Con el beneficio de la estrategia de atención cruzada desacoplada, el prompt de imagen también puede funcionar bien con el prompt de texto para lograr una generación de imágenes multimodal. La página del proyecto está disponible en https://ip-adapter.github.io.
Los recientes avances en modelos generativos de voz basados en indicaciones de audio-texto han permitido innovaciones notables, como la síntesis de voz de texto a voz (TTS) de alta calidad en modo zero-shot. Sin embargo, los modelos existentes aún enfrentan limitaciones al manejar diversas tareas de generación de voz a partir de audio-texto que implican transformar el habla de entrada y procesar audio capturado en condiciones acústicas adversas. Este artículo presenta SpeechX, un modelo versátil de generación de voz capaz de realizar TTS en modo zero-shot y diversas tareas de transformación de voz, manejando tanto señales limpias como ruidosas. SpeechX combina el modelado de lenguaje de códec neuronal con aprendizaje multitarea utilizando indicaciones dependientes de la tarea, lo que permite un modelado unificado y extensible, y proporciona una forma consistente de aprovechar la entrada textual en tareas de mejora y transformación de voz. Los resultados experimentales muestran la eficacia de SpeechX en diversas tareas, incluyendo TTS en modo zero-shot, supresión de ruido, extracción de habla de un hablante objetivo, eliminación de habla y edición de habla con o sin ruido de fondo, logrando un rendimiento comparable o superior al de modelos especializados en todas las tareas. Consulte https://aka.ms/speechx para ver muestras de demostración.
Presentamos Platypus, una familia de modelos de lenguaje grande (LLMs) ajustados y fusionados que logra el mejor rendimiento y actualmente ocupa el primer lugar en el Open LLM Leaderboard de HuggingFace a partir de la fecha de lanzamiento de este trabajo. En este trabajo describimos (1) nuestro conjunto de datos curado Open-Platypus, que es un subconjunto de otros conjuntos de datos abiertos y que publicamos para el público, (2) nuestro proceso de ajuste fino y fusión de módulos LoRA para conservar el fuerte conocimiento previo de los LLMs preentrenados, al mismo tiempo que destacamos conocimientos específicos de dominio, y (3) nuestros esfuerzos en verificar fugas de datos de prueba y contaminación en los datos de entrenamiento, lo que puede informar investigaciones futuras. Específicamente, la familia Platypus logra un rendimiento sólido en métricas cuantitativas de LLM en todos los tamaños de modelos, liderando el Open LLM Leaderboard global mientras utiliza solo una fracción de los datos de ajuste fino y el cómputo total requeridos para otros LLMs ajustados de última generación. En particular, un modelo Platypus de 13B puede entrenarse en una sola GPU A100 utilizando 25k preguntas en 5 horas. Esto es un testimonio de la calidad de nuestro conjunto de datos Open-Platypus y abre oportunidades para más mejoras en el campo. Página del proyecto: https://platypus-llm.github.io.
Evidencia empírica reciente indica que el aprendizaje en contexto basado en transformadores funciona mejor cuando se utiliza un modelo de lenguaje con prefijo (prefixLM), en el cual las muestras en contexto pueden atenderse mutuamente, en comparación con los modelos de lenguaje causales (causalLM), que utilizan atención auto-regresiva que impide que las muestras en contexto atiendan a muestras futuras. Si bien este resultado es intuitivo, no se comprende desde una perspectiva teórica. En este artículo adoptamos un enfoque teórico y analizamos el comportamiento de convergencia de prefixLM y causalLM bajo una construcción específica de parámetros. Nuestro análisis muestra que ambos tipos de modelos convergen a sus puntos estacionarios a una tasa lineal, pero mientras que prefixLM converge a la solución óptima de la regresión lineal, la dinámica de convergencia de causalLM sigue la de un algoritmo de descenso de gradiente en línea, el cual no está garantizado que sea óptimo incluso cuando el número de muestras crece infinitamente. Complementamos nuestras afirmaciones teóricas con experimentos empíricos sobre tareas sintéticas y reales utilizando varios tipos de transformadores. Nuestros experimentos verifican que causalLM consistentemente tiene un rendimiento inferior al de prefixLM en todos los escenarios.
La restauración ciega de rostros tiene como objetivo recuperar imágenes faciales de alta calidad a partir de aquellas con degradaciones desconocidas. Los algoritmos actuales introducen principalmente priores para complementar detalles de alta calidad y han logrado avances impresionantes. Sin embargo, la mayoría de estos algoritmos ignoran la abundante información contextual en el rostro y su interacción con los priores, lo que conduce a un rendimiento subóptimo. Además, prestan menos atención a la brecha entre los escenarios sintéticos y los del mundo real, limitando la robustez y generalización para aplicaciones prácticas. En este trabajo, proponemos RestoreFormer++, que por un lado introduce mecanismos de atención completamente espacial para modelar la información contextual y su interacción con los priores, y por otro lado, explora un modelo de degradación extendido para ayudar a generar imágenes faciales degradadas más realistas y así mitigar la brecha entre lo sintético y el mundo real. En comparación con los algoritmos actuales, RestoreFormer++ ofrece varios beneficios cruciales. Primero, en lugar de utilizar un mecanismo de autoatención multi-cabeza como el transformador visual tradicional, introducimos una atención cruzada multi-cabeza sobre características multi-escala para explorar completamente las interacciones espaciales entre la información corrupta y los priores de alta calidad. De esta manera, facilita que RestoreFormer++ restaure imágenes faciales con mayor realismo y fidelidad. Segundo, en contraste con el diccionario orientado al reconocimiento, aprendemos un diccionario orientado a la reconstrucción como priores, que contiene detalles faciales de alta calidad más diversos y se ajusta mejor al objetivo de restauración. Tercero, introducimos un modelo de degradación extendido que incluye escenarios degradados más realistas para la síntesis de datos de entrenamiento, lo que ayuda a mejorar la robustez y generalización de nuestro modelo RestoreFormer++. Experimentos extensivos demuestran que RestoreFormer++ supera a los algoritmos más avanzados tanto en conjuntos de datos sintéticos como del mundo real.
Con un profundo entendimiento del dominio objetivo a partir del lenguaje natural, obtenemos resultados prometedores al realizar traducciones a través de grandes brechas de dominio y devolver esqueletos a la vida. En este trabajo, utilizamos modelos de difusión latente guiados por texto para la traducción de imagen a imagen (I2I) en modo zero-shot a través de grandes brechas de dominio (longI2I), donde se necesita generar grandes cantidades de nuevas características visuales y nueva geometría para ingresar al dominio objetivo. La capacidad de realizar traducciones a través de grandes brechas de dominio tiene una amplia variedad de aplicaciones en el mundo real, como en criminología, astrología, conservación ambiental y paleontología. En este trabajo, introducimos una nueva tarea llamada Skull2Animal para traducir entre cráneos y animales vivos. En esta tarea, encontramos que las Redes Generativas Adversariales (GANs) no guiadas no son capaces de realizar traducciones a través de grandes brechas de dominio. En lugar de estos métodos tradicionales de I2I, exploramos el uso de modelos de difusión guiada y edición de imágenes, y presentamos un nuevo modelo de referencia, Revive-2I, capaz de realizar I2I en modo zero-shot mediante la difusión latente guiada por texto. Descubrimos que la guía es necesaria para longI2I porque, para salvar la gran brecha de dominio, se requiere conocimiento previo sobre el dominio objetivo. Además, encontramos que el uso de prompts proporciona la mejor y más escalable información sobre el dominio objetivo, ya que los modelos de difusión guiados por clasificadores requieren reentrenamiento para casos de uso específicos y carecen de restricciones más fuertes sobre el dominio objetivo debido a la amplia variedad de imágenes en las que se entrenan.
La evaluación automática de la traducción automática (TA) es una herramienta crítica que impulsa el desarrollo iterativo rápido de los sistemas de TA. Si bien se ha logrado un progreso considerable en la estimación de una única puntuación escalar de calidad, las métricas actuales carecen de la informatividad de esquemas más detallados que anotan errores individuales, como las Métricas de Calidad Multidimensional (MQM, por sus siglas en inglés). En este artículo, ayudamos a cerrar esta brecha proponiendo AutoMQM, una técnica de *prompting* que aprovecha las capacidades de razonamiento y aprendizaje en contexto (*in-context learning*) de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y les solicita identificar y categorizar errores en las traducciones. Comenzamos evaluando LLMs recientes, como PaLM y PaLM-2, mediante *prompting* simple para la predicción de puntuaciones, y estudiamos el impacto de los datos etiquetados a través del aprendizaje en contexto y el ajuste fino (*finetuning*). Luego evaluamos AutoMQM con modelos PaLM-2 y encontramos que mejora el rendimiento en comparación con simplemente solicitar puntuaciones (con ganancias particularmente grandes para modelos más grandes), al tiempo que proporciona interpretabilidad a través de segmentos de errores que se alinean con las anotaciones humanas.
Presentamos VisIT-Bench (Visual InsTruction Benchmark), un punto de referencia para la evaluación de modelos de visión-lenguaje ajustados por instrucciones para su uso en el mundo real. Nuestro punto de partida es la selección de 70 'familias de instrucciones' que consideramos que los modelos de visión-lenguaje ajustados por instrucciones deberían ser capaces de abordar. Más allá de evaluaciones como VQAv2 y COCO, las tareas van desde el reconocimiento básico hasta la participación en juegos y la generación creativa. Tras la selección, nuestro conjunto de datos consta de 592 consultas de prueba, cada una con una descripción condicionada por instrucciones escrita por humanos. Estas descripciones resaltan factores específicos de las instrucciones; por ejemplo, para una instrucción que pregunta sobre la accesibilidad de un local para usuarios de sillas de ruedas, la descripción condicionada por instrucciones describe rampas o posibles obstáculos. Estas descripciones permiten: 1) recopilar salidas de referencia verificadas por humanos para cada instancia; y 2) la evaluación automática de generaciones multimodales candidatas utilizando un modelo de lenguaje (LLM) basado únicamente en texto, alineándose con el juicio humano. Cuantificamos las brechas de calidad entre los modelos y las referencias utilizando evaluaciones tanto humanas como automáticas; por ejemplo, el modelo que mejor sigue las instrucciones gana contra la referencia de GPT-4 en solo el 27% de las comparaciones. VisIT-Bench es dinámico para participar; los profesionales simplemente envían la respuesta de su modelo en el sitio web del proyecto; los datos, el código y la tabla de clasificación están disponibles en visit-bench.github.io.