Artículos de investigación en IA seleccionados diariamente con traducciones
El desarrollo de modelos de lenguaje de gran escala ha generado un interés generalizado entre los investigadores por comprender sus capacidades inherentes de razonamiento y resolución de problemas. A pesar de la considerable cantidad de investigación en curso para dilucidar estas capacidades, aún existe una brecha apreciable en la comprensión del desarrollo moral y los juicios de estos modelos. Los enfoques actuales para evaluar las habilidades de razonamiento ético de estos modelos como una tarea de clasificación presentan numerosas imprecisiones debido a una simplificación excesiva. En este estudio, establecimos una conexión psicológica al unir dos campos dispares: la psicología humana y la inteligencia artificial. Propusimos un marco de evaluación efectivo que puede ayudar a delinear la capacidad de razonamiento ético del modelo en términos de consistencia moral y las etapas de desarrollo moral de Kohlberg con la ayuda de la herramienta de evaluación psicométrica: el Test de Definición de Problemas.
Aunque los métodos recientes de generación de texto a video (T2V) han experimentado avances significativos, la mayoría de estos trabajos se centran en producir clips de video cortos de un solo evento con un único fondo (es decir, videos de escena única). Mientras tanto, los modelos de lenguaje grandes (LLMs) recientes han demostrado su capacidad para generar diseños y programas que controlan módulos visuales posteriores, como los modelos de generación de imágenes. Esto plantea una pregunta importante: ¿podemos aprovechar el conocimiento incrustado en estos LLMs para la generación de videos largos con consistencia temporal? En este artículo, proponemos VideoDirectorGPT, un marco novedoso para la generación de videos multi-escena consistentes que utiliza el conocimiento de los LLMs para la planificación de contenido de video y la generación de video fundamentada. Específicamente, dado un solo texto de entrada, primero solicitamos a nuestro LLM planificador de video (GPT-4) que lo expanda en un "plan de video", lo que implica generar las descripciones de las escenas, las entidades con sus respectivos diseños, el fondo para cada escena y las agrupaciones de consistencia de las entidades y fondos. Luego, guiado por esta salida del planificador de video, nuestro generador de video, Layout2Vid, tiene control explícito sobre los diseños espaciales y puede mantener la consistencia temporal de entidades/fondos entre escenas, aunque solo esté entrenado con anotaciones a nivel de imagen. Nuestros experimentos demuestran que el marco de VideoDirectorGPT mejora sustancialmente el control de diseño y movimiento tanto en la generación de videos de escena única como multi-escena, y puede generar videos multi-escena con consistencia visual entre escenas, al tiempo que logra un rendimiento competitivo con los métodos más avanzados (SOTAs) en la generación de T2V de escena única en dominios abiertos. También demostramos que nuestro marco puede controlar dinámicamente la fuerza de la guía de diseño y puede generar videos con imágenes proporcionadas por el usuario. Esperamos que nuestro marco inspire trabajos futuros para integrar mejor la capacidad de planificación de los LLMs en la generación de videos largos consistentes.
Los Modelos Multimodales Grandes (LMM, por sus siglas en inglés) se construyen a través de múltiples modalidades, y la desalineación entre dos modalidades puede resultar en "alucinaciones", generando salidas textuales que no están fundamentadas en la información multimodal del contexto. Para abordar el problema de la desalineación multimodal, adaptamos el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) del dominio del texto a la tarea de alineación visión-lenguaje, donde se solicita a anotadores humanos que comparen dos respuestas y señalen la más alucinada, y el modelo visión-lenguaje se entrena para maximizar las recompensas humanas simuladas. Proponemos un nuevo algoritmo de alineación llamado RLHF Aumentado con Hechos, que enriquece el modelo de recompensa con información factual adicional, como descripciones de imágenes y opciones múltiples de referencia, lo que mitiga el fenómeno de "hackeo de recompensas" en RLHF y mejora aún más el rendimiento. También mejoramos los datos de entrenamiento generados por GPT-4 (para el ajuste de instrucciones visuales) con pares imagen-texto escritos por humanos previamente disponibles, para mejorar las capacidades generales de nuestro modelo. Para evaluar el enfoque propuesto en escenarios del mundo real, desarrollamos un nuevo punto de referencia de evaluación, MMHAL-BENCH, con un enfoque especial en penalizar las alucinaciones. Como el primer LMM entrenado con RLHF, nuestro enfoque logra una mejora notable en el conjunto de datos LLaVA-Bench, alcanzando el 94% del nivel de rendimiento de GPT-4 solo con texto (mientras que los mejores métodos anteriores solo alcanzan el 87%), y una mejora del 60% en MMHAL-BENCH en comparación con otras líneas base. Hemos liberado nuestro código, modelo y datos en https://llava-rlhf.github.io.
La mayoría de los modelos multimodales existentes, limitados por su incapacidad para gestionar hábilmente entradas intercaladas de imagen y texto en diálogos multiimagen y multirronda, enfrentan restricciones sustanciales en la asignación de recursos para el entrenamiento y la accesibilidad de datos, lo que afecta su adaptabilidad y escalabilidad en diversos ámbitos de interacción. Para abordar esto, presentamos el marco DeepSpeed-VisualChat, diseñado para optimizar los Modelos de Lenguaje de Gran Escala (LLMs) mediante la incorporación de capacidades multimodales, con un enfoque en mejorar la competencia de los Modelos de Visión y Lenguaje de Gran Escala en el manejo de entradas intercaladas. Nuestro marco destaca por (1) su soporte de código abierto para diálogos multirronda y multiimagen, (2) la introducción de un innovador mecanismo de atención causal multimodal, y (3) el uso de técnicas de mezcla de datos en conjuntos de datos existentes para garantizar interacciones fluidas en conversaciones multirronda y multiimagen. En comparación con los marcos existentes, DeepSpeed-VisualChat muestra una escalabilidad superior hasta modelos de lenguaje de 70B parámetros, representando un avance significativo en los modelos de lenguaje multimodal y sentando una base sólida para futuras exploraciones.
Los equipos que han entrenado modelos grandes basados en Transformadores han reportado inestabilidades durante el entrenamiento a gran escala que no aparecían al entrenar con los mismos hiperparámetros a escalas más pequeñas. Aunque las causas de estas inestabilidades son de interés científico, los recursos necesarios para reproducirlas han dificultado su investigación. En este trabajo, buscamos formas de reproducir y estudiar la estabilidad e inestabilidad del entrenamiento a escalas más reducidas. Primero, nos enfocamos en dos fuentes de inestabilidad descritas en trabajos previos: el crecimiento de los logits en las capas de atención (Dehghani et al., 2023) y la divergencia de los logits de salida respecto a las probabilidades logarítmicas (Chowdhery et al., 2022). Al medir la relación entre la tasa de aprendizaje y la pérdida a diferentes escalas, demostramos que estas inestabilidades también aparecen en modelos pequeños cuando se entrena con tasas de aprendizaje altas, y que las mitigaciones empleadas previamente a gran escala son igualmente efectivas en este régimen. Esto nos lleva a investigar hasta qué punto otras intervenciones conocidas en el optimizador y el modelo influyen en la sensibilidad de la pérdida final a cambios en la tasa de aprendizaje. Para ello, estudiamos métodos como el calentamiento inicial (warm-up), la decaimiento de pesos (weight decay) y el muParam (Yang et al., 2022), y combinamos técnicas para entrenar modelos pequeños que logran pérdidas similares a lo largo de órdenes de magnitud de variación en la tasa de aprendizaje. Finalmente, para concluir nuestra exploración, estudiamos dos casos en los que las inestabilidades pueden predecirse antes de que surjan al examinar el comportamiento de escalado de las normas de activación y gradiente del modelo.
Los modelos de lenguaje de gran escala (LLMs) pueden mejorar su precisión en diversas tareas mediante la refinación y revisión iterativa de su salida basada en retroalimentación. Observamos que estas revisiones pueden introducir errores, en cuyo caso es preferible revertir a un resultado anterior. Además, las revisiones suelen ser homogéneas: utilizan el mismo método de razonamiento que produjo la respuesta inicial, lo que puede no corregir los errores. Para facilitar la exploración en este ámbito, presentamos SCREWS, un marco modular para razonar con revisiones. Está compuesto por tres módulos principales: Muestreo, Remuestreo Condicional y Selección, cada uno con submódulos que pueden seleccionarse manualmente según la tarea. Demostramos que SCREWS no solo unifica varios enfoques previos bajo un marco común, sino que también revela varias estrategias novedosas para identificar cadenas de razonamiento mejoradas. Evaluamos nuestro marco con LLMs de última generación (ChatGPT y GPT-4) en un conjunto diverso de tareas de razonamiento y descubrimos estrategias de razonamiento útiles y nuevas para cada una: problemas aritméticos de palabras, respuestas a preguntas de múltiples saltos y depuración de código. Las estrategias de revisión heterogéneas resultan ser importantes, al igual que la selección entre candidatos originales y revisados.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en cuanto a modelado del lenguaje y capacidades emergentes los posicionan como evaluadores prometedores de la calidad de la generación de lenguaje natural sin necesidad de referencias, y como una alternativa competente a la evaluación humana. Sin embargo, debido a su naturaleza de código cerrado o a la alta demanda computacional requerida para alojarlos y ajustarlos, existe una falta de prácticas para calibrar aún más un evaluador basado en LLMs listo para usar, con el fin de lograr una mejor alineación con las preferencias humanas. En este trabajo, proponemos AutoCalibrate, un enfoque multi-etapa y libre de gradientes para calibrar y alinear automáticamente un evaluador basado en LLMs hacia las preferencias humanas. En lugar de modelar explícitamente las preferencias humanas, primero las englobamos implícitamente dentro de un conjunto de etiquetas humanas. Luego, un conjunto inicial de criterios de puntuación es redactado por el propio modelo de lenguaje, aprovechando el aprendizaje en contexto (in-context learning) con diferentes ejemplos de pocas muestras (few-shot). Para calibrar aún más este conjunto de criterios, seleccionamos los mejores desempeños y los redactamos nuevamente mediante auto-refinamiento. Nuestros experimentos en múltiples conjuntos de datos de evaluación de calidad de texto muestran una mejora significativa en la correlación con la evaluación experta a través de la calibración. Nuestro análisis cualitativo exhaustivo ofrece intuiciones y observaciones perspicaces sobre la esencia de los criterios de puntuación efectivos.
La segmentación de videos largos en capítulos permite a los usuarios navegar rápidamente hacia la información de su interés. Este tema importante ha sido poco estudiado debido a la falta de conjuntos de datos públicamente disponibles. Para abordar este problema, presentamos VidChapters-7M, un conjunto de datos que incluye 817K videos con capítulos anotados por usuarios, sumando un total de 7M capítulos. VidChapters-7M se crea automáticamente a partir de videos en línea de manera escalable, extrayendo capítulos anotados por usuarios y, por lo tanto, sin necesidad de anotación manual adicional. Introducimos las siguientes tres tareas basadas en estos datos. Primero, la tarea de generación de capítulos de video consiste en segmentar temporalmente el video y generar un título para cada segmento. Para analizar el problema en mayor profundidad, también definimos dos variantes de esta tarea: la generación de capítulos de video dados los límites de segmentación reales, que requiere generar un título para un segmento de video anotado, y la localización temporal de capítulos, que requiere ubicar temporalmente un capítulo dado su título anotado. Evaluamos tanto líneas base simples como modelos de vanguardia en lenguaje y video para estas tres tareas. También demostramos que el preentrenamiento en VidChapters-7M se transfiere eficazmente a tareas de subtitulación densa de video, tanto en configuraciones zero-shot como de ajuste fino, mejorando significativamente el estado del arte en los benchmarks YouCook2 y ViTT. Finalmente, nuestros experimentos revelan que el rendimiento en tareas posteriores escala adecuadamente con el tamaño del conjunto de datos de preentrenamiento. Nuestro conjunto de datos, código y modelos están disponibles públicamente en https://antoyang.github.io/vidchapters.html.