Artículos de investigación en IA seleccionados diariamente con traducciones
La revolución de la IA generativa se ha extendido recientemente a los videos. Sin embargo, los modelos de video más avanzados actualmente aún están rezagados en comparación con los modelos de imágenes en términos de calidad visual y control del usuario sobre el contenido generado. En este trabajo, presentamos un marco que aprovecha el poder de un modelo de difusión de texto a imagen para la tarea de edición de videos impulsada por texto. Específicamente, dado un video de origen y un texto objetivo, nuestro método genera un video de alta calidad que se ajusta al texto objetivo, mientras preserva el diseño espacial y el movimiento del video de entrada. Nuestro método se basa en una observación clave: la consistencia en el video editado puede obtenerse aplicando consistencia en el espacio de características de difusión. Logramos esto propagando explícitamente las características de difusión basadas en correspondencias entre fotogramas, que están fácilmente disponibles en el modelo. Por lo tanto, nuestro marco no requiere ningún entrenamiento o ajuste fino, y puede funcionar en conjunto con cualquier método de edición de texto a imagen disponible comercialmente. Demostramos resultados de edición de última generación en una variedad de videos del mundo real. Página web: https://diffusion-tokenflow.github.io/
El aprendizaje multimodal tiene como objetivo construir modelos que puedan procesar y relacionar información proveniente de múltiples modalidades. A pesar de años de desarrollo en este campo, sigue siendo un desafío diseñar una red unificada para procesar diversas modalidades (por ejemplo, lenguaje natural, imágenes 2D, nubes de puntos 3D, audio, video, series temporales, datos tabulares) debido a las brechas inherentes entre ellas. En este trabajo, proponemos un marco, denominado Meta-Transformer, que aprovecha un codificador congelado para realizar percepción multimodal sin necesidad de datos de entrenamiento multimodal emparejados. En Meta-Transformer, los datos de entrada en bruto de varias modalidades se mapean en un espacio de tokens compartido, permitiendo que un codificador posterior con parámetros congelados extraiga características semánticas de alto nivel de los datos de entrada. Compuesto por tres componentes principales: un tokenizador de datos unificado, un codificador compartido entre modalidades y cabezales específicos para tareas posteriores, Meta-Transformer es el primer marco que realiza aprendizaje unificado en 12 modalidades con datos no emparejados. Los experimentos en diferentes benchmarks revelan que Meta-Transformer puede manejar una amplia gama de tareas, incluyendo percepción fundamental (texto, imagen, nube de puntos, audio, video), aplicaciones prácticas (rayos X, infrarrojos, hiperespectrales e IMU) y minería de datos (grafos, tabulares y series temporales). Meta-Transformer indica un futuro prometedor para el desarrollo de inteligencia multimodal unificada con transformadores. El código estará disponible en https://github.com/invictus717/MetaTransformer.
El proceso de reconstruir experiencias a partir de la actividad cerebral humana ofrece una perspectiva única sobre cómo el cerebro interpreta y representa el mundo. En este artículo, presentamos un método para reconstruir música a partir de la actividad cerebral, capturada mediante imágenes por resonancia magnética funcional (fMRI). Nuestro enfoque utiliza tanto la recuperación de música como el modelo de generación musical MusicLM, condicionado por representaciones derivadas de datos de fMRI. La música generada se asemeja a los estímulos musicales que experimentaron los sujetos humanos, en términos de propiedades semánticas como el género, la instrumentación y el estado de ánimo. Investigamos la relación entre los diferentes componentes de MusicLM y la actividad cerebral mediante un análisis de modelado de codificación voxel por voxel. Además, discutimos qué regiones del cerebro representan información derivada de descripciones puramente textuales de estímulos musicales. Proporcionamos material complementario que incluye ejemplos de la música reconstruida en https://google-research.github.io/seanet/brain2music.
La evaluación de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es un desafío, ya que alinearse con los valores humanos requiere la composición de múltiples habilidades, y el conjunto de habilidades necesarias varía según la instrucción. Estudios recientes han evaluado el rendimiento de los LLMs de dos maneras: (1) evaluación automática en varios benchmarks independientes y (2) evaluación basada en humanos o máquinas que otorga una puntuación general a la respuesta. Sin embargo, ambos enfoques son evaluaciones de grano grueso, sin considerar la naturaleza de las instrucciones del usuario que requieren una composición de habilidades específica para cada instancia, lo que limita la interpretación de las verdaderas capacidades de los LLMs. En este artículo, presentamos FLASK (Evaluación de Modelos de Lenguaje de Grano Fino basada en Conjuntos de Habilidades de Alineación), un protocolo de evaluación de grano fino que puede utilizarse tanto para evaluaciones basadas en modelos como en humanos, descomponiendo la puntuación de nivel grueso en un conjunto de habilidades específico para cada instancia. En concreto, definimos 12 habilidades de grano fino necesarias para que los LLMs sigan instrucciones abiertas de los usuarios y construimos un conjunto de evaluación asignando un conjunto de habilidades para cada instancia. Además, al anotar los dominios objetivo y el nivel de dificultad para cada instancia, FLASK proporciona una visión holística con un análisis exhaustivo del rendimiento de un modelo según la habilidad, el dominio y la dificultad. Al utilizar FLASK, comparamos múltiples LLMs de código abierto y propietarios y observamos hallazgos altamente correlacionados entre las evaluaciones basadas en modelos y en humanos. FLASK permite a los desarrolladores medir con mayor precisión el rendimiento del modelo y cómo puede mejorarse al analizar los factores que hacen que los LLMs sean competentes en habilidades particulares. Para los profesionales, FLASK puede utilizarse para recomendar modelos adecuados para situaciones específicas a través de una comparación exhaustiva entre varios LLMs. Publicamos los datos de evaluación y la implementación del código en https://github.com/kaistAI/FLASK.
Los conjuntos de datos masivos de la web desempeñan un papel clave en el éxito de los grandes modelos de visión y lenguaje como CLIP y Flamingo. Sin embargo, los datos web en bruto son ruidosos, y los métodos de filtrado existentes para reducir este ruido suelen sacrificar la diversidad de los datos. Nuestro trabajo se centra en la calidad de las descripciones como una de las principales fuentes de ruido, y estudia cómo las descripciones generadas pueden aumentar la utilidad de los datos extraídos de la web que contienen texto poco descriptivo. Al explorar diferentes estrategias de combinación entre descripciones en bruto y generadas, superamos el mejor método de filtrado propuesto por el benchmark DataComp en un 2% en ImageNet y en un 4% en promedio en 38 tareas, dado un conjunto de candidatos de 128 millones de pares imagen-texto. Nuestro mejor enfoque también es 2 veces mejor en la recuperación de imágenes en Flickr y MS-COCO. Luego analizamos qué hace que las descripciones sintéticas sean una fuente efectiva de supervisión textual. Al experimentar con diferentes modelos de generación de descripciones de imágenes, también demostramos que el rendimiento de un modelo en benchmarks estándar de generación de descripciones (por ejemplo, NoCaps CIDEr) no es un indicador confiable de la utilidad de las descripciones que genera para el entrenamiento multimodal. Finalmente, nuestros experimentos con el uso de descripciones generadas a gran escala en DataComp (1.28 mil millones de pares imagen-texto) ofrecen información sobre las limitaciones del texto sintético, así como la importancia de la curación de imágenes con el aumento de la cantidad de datos de entrenamiento.
El aprendizaje autosupervisado ha provocado un cambio de paradigma revolucionario en diversos dominios de la computación, incluyendo el procesamiento del lenguaje natural (NLP), la visión por computadora y la biología. Los enfoques recientes implican el preentrenamiento de modelos transformadores con grandes cantidades de datos no etiquetados, sirviendo como punto de partida para resolver eficientemente tareas posteriores. En el ámbito del aprendizaje por refuerzo, los investigadores han adaptado recientemente estos enfoques desarrollando modelos preentrenados con trayectorias expertas, permitiéndoles abordar una amplia gama de tareas, desde robótica hasta sistemas de recomendación. Sin embargo, los métodos existentes se basan principalmente en objetivos de preentrenamiento intrincados, diseñados para aplicaciones posteriores específicas. Este artículo presenta una investigación exhaustiva de modelos que denominamos Agentes Transformadores Preentrenados de Acción-Estado (PASTA, por sus siglas en inglés). Nuestro estudio utiliza una metodología unificada y cubre un amplio conjunto de tareas posteriores generales, incluyendo clonación de comportamiento, aprendizaje por refuerzo offline, robustez ante fallos de sensores y adaptación a cambios dinámicos. Nuestro objetivo es comparar sistemáticamente diversas opciones de diseño y proporcionar insights valiosos a los profesionales para construir modelos robustos. Los aspectos destacados de nuestro estudio incluyen la tokenización a nivel de componentes de acción y estado, el uso de objetivos fundamentales de preentrenamiento como la predicción del siguiente token, el entrenamiento de modelos en diversos dominios simultáneamente y el uso de ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés). Los modelos desarrollados en nuestro estudio contienen menos de 10 millones de parámetros, y la aplicación de PEFT permite ajustar menos de 10,000 parámetros durante la adaptación posterior, lo que facilita que una amplia comunidad utilice estos modelos y reproduzca nuestros experimentos. Esperamos que este estudio fomente más investigaciones sobre el uso de transformadores con elecciones de diseño basadas en principios fundamentales para representar trayectorias de aprendizaje por refuerzo y contribuya al aprendizaje de políticas robustas.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un progreso notable en muchos benchmarks matemáticos. Sin embargo, la mayoría de estos benchmarks solo incluyen problemas basados en materias de secundaria y bachillerato, contienen únicamente preguntas de opción múltiple y se limitan a un ámbito reducido de operaciones aritméticas básicas. Para abordar estas limitaciones, este artículo presenta un conjunto de benchmarks extenso llamado SciBench, cuyo objetivo es examinar sistemáticamente las capacidades de razonamiento necesarias para la resolución de problemas científicos complejos. SciBench incluye dos conjuntos de datos cuidadosamente seleccionados: un conjunto abierto que presenta una variedad de problemas científicos de nivel universitario extraídos de libros de texto de matemáticas, química y física, y un conjunto cerrado que comprende problemas de exámenes de pregrado en informática y matemáticas. Basándonos en estos dos conjuntos de datos, realizamos un estudio de benchmark exhaustivo de dos LLMs representativos utilizando diversas estrategias de prompting. Los resultados revelan que los LLMs actuales no alcanzan un rendimiento satisfactorio, con una puntuación general de apenas el 35,80%. Además, mediante un estudio detallado con usuarios, categorizamos los errores cometidos por los LLMs en diez habilidades de resolución de problemas. Nuestro análisis indica que ninguna estrategia de prompting supera significativamente a las demás, y que algunas estrategias que muestran mejoras en ciertas habilidades de resolución de problemas resultan en disminuciones en otras habilidades. Visualizamos que SciBench catalizará avances adicionales en las capacidades de razonamiento de los LLMs, contribuyendo así, en última instancia, a la investigación y el descubrimiento científico.
Los mecanismos detrás del éxito del aprendizaje autosupervisado multivista (MVSSL, por sus siglas en inglés) aún no se comprenden completamente. Los métodos contrastivos de MVSSL han sido estudiados a través de la lente de InfoNCE, una cota inferior de la Información Mutua (MI, por sus siglas en inglés). Sin embargo, la relación entre otros métodos de MVSSL y la MI sigue siendo poco clara. Consideramos una cota inferior diferente de la MI que consta de un término de entropía y un término de reconstrucción (ER, por sus siglas en inglés), y analizamos las principales familias de MVSSL a través de esta lente. Mediante esta cota ER, demostramos que métodos basados en agrupamiento, como DeepCluster y SwAV, maximizan la MI. También reinterpretamos los mecanismos de enfoques basados en destilación, como BYOL y DINO, mostrando que maximizan explícitamente el término de reconstrucción e implícitamente fomentan una entropía estable, lo cual confirmamos empíricamente. Demostramos que reemplazar los objetivos de los métodos comunes de MVSSL con esta cota ER logra un rendimiento competitivo, al mismo tiempo que los hace más estables al entrenar con tamaños de lote más pequeños o coeficientes de media móvil exponencial (EMA, por sus siglas en inglés) más reducidos. Repositorio de Github: https://github.com/apple/ml-entropy-reconstruction.
Si bien los modelos ajustados por instrucciones han demostrado un éxito notable en diversas tareas de procesamiento del lenguaje natural, evaluar con precisión su capacidad para seguir instrucciones sigue siendo un desafío. Los puntos de referencia existentes se centran principalmente en instrucciones comunes que se alinean bien con lo que el modelo aprendió durante el entrenamiento. Sin embargo, la competencia en responder a estas instrucciones no implica necesariamente una fuerte capacidad en el seguimiento de instrucciones. En este artículo, proponemos un novedoso protocolo de evaluación de seguimiento de instrucciones llamado manipulación de verbalizadores. Este instruye al modelo a verbalizar la etiqueta de la tarea con palabras que se alinean en distintos grados con los sesgos previos del modelo, adoptando verbalizadores desde aquellos altamente alineados (por ejemplo, generar "positivo" para un sentimiento positivo) hasta aquellos mínimamente alineados (por ejemplo, generar "negativo" para un sentimiento positivo). La manipulación de verbalizadores puede integrarse sin problemas con cualquier punto de referencia de clasificación para examinar la dependencia del modelo en sus sesgos previos y su capacidad para anularlos y seguir con precisión las instrucciones. Realizamos una evaluación exhaustiva de cuatro familias principales de modelos en nueve conjuntos de datos, empleando doce conjuntos de verbalizadores para cada uno de ellos. Observamos que las capacidades de seguimiento de instrucciones de los modelos, entre diferentes familias y escalas, se distinguen significativamente por su rendimiento en verbalizadores menos naturales. Incluso el modelo más potente, GPT-4, tiene dificultades para superar el azar en el verbalizador más desafiante, lo que enfatiza la necesidad de continuar avanzando para mejorar sus capacidades de seguimiento de instrucciones.