Artículos de investigación en IA seleccionados diariamente con traducciones
Los Embeddings de Posición Rotacional (RoPE, por sus siglas en inglés) han demostrado ser efectivos para codificar información posicional en modelos de lenguaje basados en transformadores. Sin embargo, estos modelos no logran generalizar más allá de la longitud de secuencia con la que fueron entrenados. Presentamos YaRN (Yet another RoPE extensioN method), un método eficiente en términos de cómputo para extender la ventana de contexto de dichos modelos, que requiere 10 veces menos tokens y 2.5 veces menos pasos de entrenamiento que métodos anteriores. Utilizando YaRN, demostramos que los modelos LLaMA pueden utilizar y extrapolar efectivamente a longitudes de contexto mucho mayores de lo que permitiría su preentrenamiento original, superando además el estado del arte en la extensión de ventanas de contexto. Además, mostramos que YaRN exhibe la capacidad de extrapolar más allá del contexto limitado de un conjunto de datos de ajuste fino. Publicamos los puntos de control de Llama 2 7B/13B ajustados mediante YaRN con ventanas de contexto de 64k y 128k en https://github.com/jquesnelle/yarn.
El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) es efectivo para alinear modelos de lenguaje grandes (LLMs) con las preferencias humanas, pero la recopilación de etiquetas de preferencia humana de alta calidad es un cuello de botella clave. Realizamos una comparación directa entre RLHF y el aprendizaje por refuerzo a partir de retroalimentación de IA (RLAIF), una técnica en la que las preferencias son etiquetadas por un LLM estándar en lugar de humanos, y encontramos que ambos métodos resultan en mejoras similares. En la tarea de resumen, los evaluadores humanos prefieren las generaciones tanto de RLAIF como de RLHF sobre un modelo base ajustado mediante aprendizaje supervisado en aproximadamente el 70% de los casos. Además, cuando se les pide que califiquen resúmenes de RLAIF frente a RLHF, los humanos prefieren ambos en proporciones iguales. Estos resultados sugieren que RLAIF puede alcanzar un rendimiento a nivel humano, ofreciendo una solución potencial a las limitaciones de escalabilidad de RLHF.
En este artículo presentamos VideoGen, un enfoque de generación de texto a video que puede producir un video de alta definición con alta fidelidad de fotogramas y fuerte consistencia temporal mediante difusión latente guiada por referencia. Aprovechamos un modelo de generación de texto a imagen disponible comercialmente, como Stable Diffusion, para generar una imagen de alta calidad de contenido a partir de un texto de entrada, la cual sirve como imagen de referencia para guiar la generación del video. Luego, introducimos un módulo eficiente de difusión latente en cascada condicionado tanto por la imagen de referencia como por el texto de entrada, para generar representaciones latentes de video, seguido de un paso de sobremuestreo temporal basado en flujo para mejorar la resolución temporal. Finalmente, mapeamos las representaciones latentes de video a un video de alta definición mediante un decodificador de video mejorado. Durante el entrenamiento, utilizamos el primer fotograma de un video de referencia como imagen de referencia para entrenar el módulo de difusión latente en cascada. Las principales características de nuestro enfoque incluyen: la imagen de referencia generada por el modelo de texto a imagen mejora la fidelidad visual; usarla como condición hace que el modelo de difusión se enfoque más en aprender la dinámica del video; y el decodificador de video se entrena con datos de video no etiquetados, beneficiándose así de videos de alta calidad fácilmente disponibles. VideoGen establece un nuevo estado del arte en la generación de texto a video tanto en evaluaciones cualitativas como cuantitativas.
Shannon, en su artículo seminal que introdujo la teoría de la información, dividió la comunicación en tres niveles: técnico, semántico y de efectividad. Mientras que el nivel técnico se ocupa de la reconstrucción precisa de los símbolos transmitidos, los niveles semántico y de efectividad tratan sobre el significado inferido y su efecto en el receptor. Gracias a las telecomunicaciones, el problema del primer nivel ha producido grandes avances como internet. Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado cierto progreso hacia el segundo objetivo, pero el tercer nivel sigue siendo en gran medida inexplorado. El tercer problema se refiere a predecir y optimizar la comunicación para obtener el comportamiento deseado en el receptor. Los LLMs, aunque muestran capacidades de generalización amplias en una variedad de tareas, no pueden resolver este problema. Una razón para este bajo rendimiento podría ser la falta de "tokens de comportamiento" en los corpus de entrenamiento de los LLMs. Los tokens de comportamiento definen el comportamiento del receptor durante una comunicación, como compartir, dar "me gusta", hacer clic, comprar, retuitear, etc. Al preprocesar los datos para el entrenamiento de los LLMs, los tokens de comportamiento a menudo se eliminan del corpus como ruido. Por lo tanto, en este artículo, avanzamos inicialmente en la reintroducción de tokens de comportamiento en el entrenamiento de los LLMs. Los modelos entrenados, además de mostrar un rendimiento similar al de los LLMs en tareas de comprensión de contenido, demuestran capacidades de generalización en simulación de comportamiento, simulación de contenido, comprensión de comportamiento y adaptación de dominio de comportamiento. Utilizando una amplia gama de tareas en dos corpus, mostramos resultados en todas estas capacidades. Llamamos a estos modelos Modelos de Contenido y Comportamiento de Gran Escala (LCBMs, por sus siglas en inglés). Además, para fomentar más investigación sobre los LCBMs, publicamos nuestro nuevo Corpus de Comportamiento de Contenido (CBC), un repositorio que contiene al comunicador, el mensaje y el comportamiento correspondiente del receptor.
Los modelos de visión por computadora presentan disparidades de rendimiento conocidas en atributos como el género y el tono de piel. Esto significa que, durante tareas como clasificación y detección, el rendimiento del modelo varía para ciertas clases según las características demográficas de las personas en la imagen. Estas disparidades han sido demostradas, pero hasta ahora no existía un enfoque unificado para medir estas diferencias en casos de uso comunes de modelos de visión por computadora. Presentamos un nuevo punto de referencia llamado FACET (FAirness in Computer Vision EvaluaTion), un conjunto de evaluación grande y públicamente disponible de 32k imágenes para algunas de las tareas de visión más comunes: clasificación de imágenes, detección de objetos y segmentación. Para cada imagen en FACET, contratamos revisores expertos para anotar manualmente atributos relacionados con personas, como el tono de piel percibido y el tipo de cabello, dibujar manualmente cuadros delimitadores y etiquetar clases detalladas relacionadas con personas, como disc jockey o guitarrista. Además, utilizamos FACET para evaluar modelos de visión de última generación y presentar una comprensión más profunda de las posibles disparidades de rendimiento y desafíos en atributos demográficos sensibles. Con las anotaciones exhaustivas recopiladas, analizamos los modelos utilizando atributos demográficos individuales, así como múltiples atributos mediante un enfoque interseccional (por ejemplo, color de cabello y tono de piel percibido). Nuestros resultados muestran que los modelos de clasificación, detección, segmentación y anclaje visual exhiben disparidades de rendimiento en atributos demográficos e intersecciones de atributos. Estos daños sugieren que no todas las personas representadas en los conjuntos de datos reciben un tratamiento justo y equitativo en estas tareas de visión. Esperamos que los resultados actuales y futuros utilizando nuestro punto de referencia contribuyan a modelos de visión más justos y robustos. FACET está disponible públicamente en https://facet.metademolab.com/.