Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje propietarios (LM) como GPT-4 se utilizan frecuentemente para evaluar la calidad de las respuestas de diversos LM. Sin embargo, preocupaciones relacionadas con la transparencia, la controlabilidad y la asequibilidad motivan fuertemente el desarrollo de LM de código abierto especializados en evaluaciones. Por otro lado, los evaluadores LM abiertos existentes presentan deficiencias críticas: 1) emiten puntuaciones que divergen significativamente de las asignadas por humanos, y 2) carecen de la flexibilidad para realizar tanto evaluaciones directas como clasificaciones por pares, las dos formas de evaluación más prevalentes. Además, no poseen la capacidad de evaluar basándose en criterios personalizados, centrándose en cambio en atributos generales como la utilidad y la inocuidad. Para abordar estos problemas, presentamos Prometheus 2, un evaluador LM más potente que su predecesor y que refleja de cerca los juicios de humanos y GPT-4. Además, es capaz de procesar tanto formatos de evaluación directa como de clasificación por pares agrupados con un criterio de evaluación definido por el usuario. En cuatro benchmarks de evaluación directa y cuatro de clasificación por pares, Prometheus 2 obtiene la mayor correlación y concordancia con humanos y jueces LM propietarios entre todos los evaluadores LM abiertos probados. Nuestros modelos, código y datos están disponibles públicamente en https://github.com/prometheus-eval/prometheus-eval.
Low Rank Adaptation (LoRA) ha surgido como uno de los métodos más ampliamente adoptados para el Ajuste Fino Eficiente en Parámetros (PEFT) de Modelos de Lenguaje de Gran Escala (LLMs). LoRA reduce el número de parámetros entrenables y el uso de memoria, logrando un rendimiento comparable al ajuste fino completo. Nuestro objetivo es evaluar la viabilidad de entrenar y servir LLMs ajustados con LoRA en aplicaciones del mundo real. Primero, medimos la calidad de los LLMs ajustados con adaptadores de bajo rango cuantizados en 10 modelos base y 31 tareas, para un total de 310 modelos. Encontramos que los modelos ajustados con LoRA de 4 bits superan a los modelos base en 34 puntos y a GPT-4 en 10 puntos en promedio. Segundo, investigamos los modelos base más efectivos para el ajuste fino y evaluamos las capacidades correlativas y predictivas de las heurísticas de complejidad de tareas para pronosticar los resultados del ajuste fino. Finalmente, evaluamos la latencia y las capacidades de concurrencia de LoRAX, un servidor de inferencia Multi-LoRA de código abierto que facilita el despliegue de múltiples modelos ajustados con LoRA en una sola GPU utilizando pesos compartidos del modelo base y carga dinámica de adaptadores. LoRAX impulsa LoRA Land, una aplicación web que aloja 25 LLMs Mistral-7B ajustados con LoRA en una sola GPU NVIDIA A100 con 80GB de memoria. LoRA Land destaca la calidad y la rentabilidad de emplear múltiples LLMs especializados en lugar de un único LLM de propósito general.
Chatbots como GPT-4 y ChatGPT ahora atienden a millones de usuarios. A pesar de su uso generalizado, existe una falta de conjuntos de datos públicos que muestren cómo estas herramientas son utilizadas por una población de usuarios en la práctica. Para cerrar esta brecha, ofrecimos acceso gratuito a ChatGPT a usuarios en línea a cambio de su consentimiento afirmativo y voluntario para recopilar de manera anónima sus transcripciones de chat y los encabezados de sus solicitudes. A partir de esto, compilamos WildChat, un corpus de 1 millón de conversaciones entre usuarios y ChatGPT, que consta de más de 2.5 millones de turnos de interacción. Comparamos WildChat con otros conjuntos de datos populares de interacciones entre usuarios y chatbots, y encontramos que nuestro conjunto de datos ofrece las indicaciones de usuarios más diversas, contiene el mayor número de idiomas y presenta la variedad más rica de casos de uso potencialmente tóxicos para que los investigadores estudien. Además de las transcripciones de chat con marcas de tiempo, enriquecemos el conjunto de datos con datos demográficos, incluyendo estado, país y direcciones IP hasheadas, junto con los encabezados de las solicitudes. Esta ampliación permite un análisis más detallado de los comportamientos de los usuarios en diferentes regiones geográficas y dimensiones temporales. Finalmente, debido a que captura una amplia gama de casos de uso, demostramos la utilidad potencial del conjunto de datos en el ajuste fino de modelos que siguen instrucciones. WildChat se publica en https://wildchat.allen.ai bajo las licencias AI2 ImpACT.
Para los modelos generativos recientes basados en difusión, mantener contenido consistente en una serie de imágenes generadas, especialmente aquellas que contienen sujetos y detalles complejos, representa un desafío significativo. En este artículo, proponemos una nueva forma de cálculo de autoatención, denominada Autoatención Consistente, que mejora considerablemente la coherencia entre las imágenes generadas y potencia los modelos preentrenados predominantes de texto a imagen basados en difusión de manera zero-shot. Para extender nuestro método a la generación de videos de largo alcance, introducimos además un nuevo módulo de predicción de movimiento temporal en el espacio semántico, llamado Predictor de Movimiento Semántico. Este módulo está entrenado para estimar las condiciones de movimiento entre dos imágenes proporcionadas en los espacios semánticos. Convierte la secuencia generada de imágenes en videos con transiciones suaves y sujetos consistentes que son significativamente más estables que los módulos basados únicamente en espacios latentes, especialmente en el contexto de la generación de videos largos. Al combinar estos dos componentes novedosos, nuestro marco, denominado StoryDiffusion, puede describir una historia basada en texto con imágenes o videos consistentes que abarcan una amplia variedad de contenidos. El StoryDiffusion propuesto abarca exploraciones pioneras en la generación de historias visuales con la presentación de imágenes y videos, lo que esperamos pueda inspirar más investigaciones desde el aspecto de las modificaciones arquitectónicas. Nuestro código está disponible públicamente en https://github.com/HVision-NKU/StoryDiffusion.
Alinear los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) con los valores y preferencias humanas es fundamental para hacerlos útiles y seguros. Sin embargo, desarrollar herramientas eficientes para realizar esta alineación puede ser un desafío, especialmente para los LLMs más grandes y competentes, que a menudo contienen decenas o cientos de miles de millones de parámetros. Creamos NeMo-Aligner, un kit de herramientas para la alineación de modelos que puede escalar eficientemente utilizando cientos de GPUs para el entrenamiento. NeMo-Aligner incluye implementaciones altamente optimizadas y escalables para los principales paradigmas de alineación de modelos, como: Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), Optimización Directa de Preferencias (DPO), SteerLM y Ajuste Fino mediante Autojuego (SPIN). Además, nuestro kit de herramientas permite ejecutar la mayoría de las técnicas de alineación en un entorno de Ajuste Fino Eficiente en Parámetros (PEFT). NeMo-Aligner está diseñado para ser extensible, permitiendo la incorporación de otras técnicas de alineación con un esfuerzo mínimo. Está disponible como código abierto bajo la licencia Apache 2.0 e invitamos a contribuciones de la comunidad en https://github.com/NVIDIA/NeMo-Aligner.
La alineación es un procedimiento estándar para ajustar modelos de lenguaje preentrenados (LLMs, por sus siglas en inglés) con el fin de que sigan instrucciones en lenguaje natural y funcionen como asistentes de IA útiles. Sin embargo, hemos observado que el proceso de alineación convencional no mejora la precisión factual de los LLMs y, a menudo, conduce a la generación de más hechos falsos (es decir, alucinaciones). En este artículo, estudiamos cómo hacer que el proceso de alineación de los LLMs sea más factual, identificando primero los factores que provocan alucinaciones en ambas etapas de la alineación: el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo (RL). En particular, encontramos que entrenar al LLM con conocimientos nuevos o textos desconocidos puede fomentar las alucinaciones. Esto hace que el SFT sea menos factual, ya que se entrena con datos etiquetados por humanos que pueden ser novedosos para el LLM. Además, las funciones de recompensa utilizadas en el RL estándar también pueden fomentar las alucinaciones, ya que guían al LLM a proporcionar respuestas más útiles en un conjunto diverso de instrucciones, a menudo prefiriendo respuestas más largas y detalladas. Basándonos en estas observaciones, proponemos una alineación consciente de la factualidad, compuesta por un SFT consciente de la factualidad y un RL consciente de la factualidad mediante la optimización directa de preferencias. Los experimentos muestran que nuestra propuesta de alineación consciente de la factualidad guía a los LLMs a generar respuestas más factuales mientras mantiene la capacidad de seguir instrucciones.
La reinterpretación artística es la práctica de crear una variación de una obra de referencia, generando una obra emparejada que exhibe un estilo artístico distintivo. Nos preguntamos si dicho par de imágenes puede utilizarse para personalizar un modelo generativo con el fin de capturar la diferencia estilística demostrada. Proponemos Personalización por Pares, un nuevo método de personalización que aprende la diferencia estilística a partir de un único par de imágenes y luego aplica el estilo adquirido al proceso de generación. A diferencia de los métodos existentes que aprenden a imitar un único concepto a partir de una colección de imágenes, nuestro método captura la diferencia estilística entre imágenes emparejadas. Esto nos permite aplicar un cambio estilístico sin sobreajustar el contenido específico de las imágenes en los ejemplos. Para abordar esta nueva tarea, empleamos un método de optimización conjunta que separa explícitamente el estilo y el contenido en espacios de pesos LoRA distintos. Optimizamos estos pesos de estilo y contenido para reproducir las imágenes de estilo y contenido, fomentando su ortogonalidad. Durante la inferencia, modificamos el proceso de difusión mediante una nueva guía de estilo basada en los pesos aprendidos. Tanto los experimentos cualitativos como cuantitativos muestran que nuestro método puede aprender efectivamente el estilo evitando el sobreajuste al contenido de la imagen, destacando el potencial de modelar tales diferencias estilísticas a partir de un único par de imágenes.
El desarrollo de la Audiodescripción (AD) ha sido un paso crucial para hacer que los contenidos audiovisuales sean más accesibles e inclusivos. Tradicionalmente, la producción de AD ha requerido una cantidad considerable de mano de obra especializada, mientras que los enfoques automatizados existentes aún necesitan un entrenamiento extenso para integrar entradas multimodales y adaptar la salida de un estilo de subtitulado a un estilo de AD. En este artículo, presentamos una pipeline automatizada para la generación de AD que aprovecha las potentes capacidades multimodales y de seguimiento de instrucciones de GPT-4V(isión). Cabe destacar que nuestra metodología emplea componentes fácilmente disponibles, eliminando la necesidad de entrenamiento adicional. Produce ADs que no solo cumplen con los estándares establecidos de producción de lenguaje natural para AD, sino que también mantienen información contextualmente consistente sobre los personajes a lo largo de los fotogramas, gracias a un módulo de reconocimiento de personajes basado en seguimiento. Un análisis exhaustivo en el conjunto de datos MAD revela que nuestro enfoque alcanza un rendimiento comparable a los métodos basados en aprendizaje en la producción automatizada de AD, respaldado por una puntuación CIDEr de 20.5.