Artículos de investigación en IA seleccionados diariamente con traducciones
La generación de texto a imagen es un dominio significativo en la visión por computadora moderna y ha logrado mejoras sustanciales a través de la evolución de las arquitecturas generativas. Entre estas, se encuentran los modelos basados en difusión que han demostrado mejoras esenciales en la calidad. Estos modelos generalmente se dividen en dos categorías: enfoques a nivel de píxeles y a nivel latente. Presentamos Kandinsky1, una exploración novedosa de la arquitectura de difusión latente, que combina los principios de los modelos de prior de imagen con técnicas de difusión latente. El modelo de prior de imagen se entrena por separado para mapear incrustaciones de texto a incrustaciones de imagen de CLIP. Otra característica distintiva del modelo propuesto es la implementación modificada de MoVQ, que sirve como componente del autoencoder de imágenes. En general, el modelo diseñado contiene 3.3 mil millones de parámetros. También implementamos un sistema de demostración fácil de usar que admite diversos modos generativos, como la generación de texto a imagen, fusión de imágenes, fusión de texto e imagen, generación de variaciones de imágenes y restauración/ampliación guiada por texto. Además, publicamos el código fuente y los puntos de control para los modelos Kandinsky. Las evaluaciones experimentales demuestran un puntaje FID de 8.03 en el conjunto de datos COCO-30K, lo que posiciona a nuestro modelo como el mejor de código abierto en términos de calidad medible de generación de imágenes.
Los modelos multimodales grandes (LMM, por sus siglas en inglés) han mostrado recientemente avances alentadores con el ajuste mediante instrucciones visuales. En esta nota, demostramos que el conector multimodal visión-lenguaje completamente conectado en LLaVA es sorprendentemente potente y eficiente en términos de datos. Con modificaciones simples a LLaVA, específicamente, utilizando CLIP-ViT-L-336px con una proyección MLP y añadiendo datos de VQA orientados a tareas académicas con indicaciones de formato de respuesta simples, establecemos líneas base más sólidas que alcanzan el estado del arte en 11 benchmarks. Nuestro checkpoint final de 13B utiliza apenas 1.2M de datos disponibles públicamente y completa el entrenamiento completo en ~1 día en un solo nodo con 8 GPUs A100. Esperamos que esto pueda hacer que la investigación de vanguardia en LMM sea más accesible. El código y el modelo estarán disponibles públicamente.
El recientemente lanzado GPT-4 Code Interpreter ha demostrado una notable proficiencia en la resolución de problemas matemáticos desafiantes, atribuida principalmente a su capacidad para razonar de manera fluida con lenguaje natural, generar código, ejecutar código y continuar razonando basándose en los resultados de la ejecución. En este artículo, presentamos un método para ajustar modelos de lenguaje de código abierto, permitiéndoles utilizar código para modelar y derivar ecuaciones matemáticas y, en consecuencia, mejorar sus habilidades de razonamiento matemático. Proponemos un método para generar conjuntos de datos novedosos y de alta calidad con problemas matemáticos y sus soluciones basadas en código, denominado MathCodeInstruct. Cada solución entrelaza lenguaje natural, código y resultados de ejecución. También introducimos un enfoque personalizado de ajuste fino supervisado e inferencia. Este enfoque da lugar a los modelos MathCoder, una familia de modelos capaces de generar soluciones basadas en código para resolver problemas matemáticos complejos. De manera impresionante, los modelos MathCoder logran puntuaciones de vanguardia entre los LLM de código abierto en los conjuntos de datos MATH (45.2%) y GSM8K (83.9%), superando sustancialmente a otras alternativas de código abierto. Cabe destacar que el modelo MathCoder no solo supera a ChatGPT-3.5 y PaLM-2 en GSM8K y MATH, sino que también supera a GPT-4 en el conjunto de datos MATH de nivel competitivo. El conjunto de datos y los modelos se publicarán en https://github.com/mathllm/MathCoder.
Los modelos de difusión de texto a imagen han surgido recientemente a la vanguardia de la generación de imágenes, impulsados por conjuntos de datos de entrenamiento de texto a imagen a muy gran escala, no supervisados o débilmente supervisados. Debido a su entrenamiento no supervisado, controlar su comportamiento en tareas posteriores, como maximizar la calidad de la imagen percibida por humanos, la alineación entre imagen y texto, o la generación ética de imágenes, es difícil. Trabajos recientes ajustan los modelos de difusión a funciones de recompensa posteriores utilizando aprendizaje por refuerzo básico, conocido por la alta varianza de los estimadores de gradiente. En este artículo, proponemos AlignProp, un método que alinea los modelos de difusión a funciones de recompensa posteriores mediante la retropropagación de extremo a extremo del gradiente de recompensa a través del proceso de eliminación de ruido. Si bien una implementación ingenua de dicha retropropagación requeriría recursos de memoria prohibitivos para almacenar las derivadas parciales de los modelos modernos de texto a imagen, AlignProp ajusta módulos de pesos adaptadores de bajo rango y utiliza la verificación de gradientes para hacer viable su uso de memoria. Probamos AlignProp en el ajuste fino de modelos de difusión para varios objetivos, como la alineación semántica entre imagen y texto, la estética, la compresibilidad y la controlabilidad del número de objetos presentes, así como sus combinaciones. Mostramos que AlignProp logra mayores recompensas en menos pasos de entrenamiento que las alternativas, siendo conceptualmente más simple, lo que lo convierte en una elección directa para optimizar modelos de difusión para funciones de recompensa diferenciables de interés. El código y los resultados de visualización están disponibles en https://align-prop.github.io/.
Los modelos de lenguaje (LMs, por sus siglas en inglés) han demostrado la capacidad de manejar una variedad de tareas generativas. Este artículo presenta el sistema UniAudio, que, a diferencia de enfoques previos específicos para cada tarea, aprovecha técnicas de LMs para generar múltiples tipos de audio (incluyendo voz, sonidos, música y canto) con condiciones de entrada dadas. UniAudio 1) primero tokeniza todos los tipos de audio objetivo junto con otras modalidades de condición, 2) concatena pares fuente-objetivo como una única secuencia, y 3) realiza predicciones del siguiente token utilizando LMs. Además, se propone un modelo Transformer multi-escala para manejar las secuencias excesivamente largas causadas por el codec neuronal basado en cuantización vectorial residual durante la tokenización. El entrenamiento de UniAudio se escala hasta 165,000 horas de audio y 1,000 millones de parámetros, basándose en todas las tareas generativas, con el objetivo de obtener suficiente conocimiento previo no solo en las propiedades intrínsecas del audio, sino también en la interrelación entre el audio y otras modalidades. Por lo tanto, el modelo UniAudio entrenado tiene el potencial de convertirse en un modelo base para la generación universal de audio: muestra una fuerte capacidad en todas las tareas entrenadas y puede apoyar sin problemas nuevas tareas de generación de audio después de un simple ajuste fino. Los experimentos demuestran que UniAudio logra resultados de vanguardia o al menos competitivos en la mayoría de las 11 tareas. La demostración y el código están disponibles en https://github.com/yangdongchao/UniAudio.
La mayoría de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se entrenan una vez y nunca se actualizan; por lo tanto, carecen de la capacidad de adaptarse dinámicamente a nuestro mundo en constante cambio. En este trabajo, realizamos un estudio detallado sobre la factualidad del texto generado por LLMs en el contexto de responder preguntas que evalúan el conocimiento actual del mundo. Específicamente, presentamos FreshQA, un nuevo benchmark dinámico de preguntas y respuestas que abarca una amplia gama de tipos de preguntas y respuestas, incluyendo preguntas que requieren conocimiento del mundo que cambia rápidamente, así como preguntas con premisas falsas que deben ser desmentidas. Evaluamos una variedad diversa de LLMs tanto cerrados como de código abierto bajo un procedimiento de evaluación de dos modos que nos permite medir tanto la corrección como la alucinación. A través de evaluaciones humanas que involucran más de 50K juicios, arrojamos luz sobre las limitaciones de estos modelos y demostramos un margen significativo de mejora: por ejemplo, todos los modelos (independientemente de su tamaño) tienen dificultades con preguntas que involucran conocimiento que cambia rápidamente y premisas falsas. Motivados por estos resultados, presentamos FreshPrompt, un método simple de prompting de pocos ejemplos que mejora sustancialmente el rendimiento de un LLM en FreshQA al incorporar información relevante y actualizada recuperada de un motor de búsqueda en el prompt. Nuestros experimentos muestran que FreshPrompt supera tanto a métodos competidores de prompting aumentado con motores de búsqueda, como Self-Ask (Press et al., 2022), como a sistemas comerciales como Perplexity.AI. Un análisis más profundo de FreshPrompt revela que tanto el número de evidencias recuperadas como su orden juegan un papel clave en influir en la corrección de las respuestas generadas por los LLMs. Además, instruir al LLM para que genere respuestas concisas y directas ayuda a reducir la alucinación en comparación con fomentar respuestas más verbosas. Para facilitar trabajos futuros, publicamos FreshQA en github.com/freshllms/freshqa y nos comprometemos a actualizarlo a intervalos regulares.
Los modelos generativos actuales de visión y lenguaje dependen de extensos corpus de datos emparejados de imagen-texto para alcanzar un rendimiento óptimo y capacidades de generalización. Sin embargo, la recopilación automática de dichos datos (por ejemplo, mediante el rastreo web a gran escala) resulta en baja calidad y una correlación deficiente entre imagen y texto, mientras que la anotación humana es más precisa pero requiere un esfuerzo manual y un costo significativos. Presentamos ITIT (InTegrating Image Text): un paradigma de entrenamiento innovador basado en el concepto de consistencia cíclica que permite el entrenamiento de visión y lenguaje con datos de imagen y texto no emparejados. ITIT está compuesto por un codificador conjunto de imagen-texto con decodificadores separados de imagen y texto que permiten la generación bidireccional de imagen a texto y de texto a imagen en un único marco. Durante el entrenamiento, ITIT aprovecha un pequeño conjunto de datos emparejados de imagen-texto para garantizar que su salida coincida razonablemente bien con la entrada en ambas direcciones. Simultáneamente, el modelo también se entrena con conjuntos de datos mucho más grandes que contienen solo imágenes o textos. Esto se logra aplicando consistencia cíclica entre las muestras no emparejadas originales y sus contrapartes generadas cíclicamente. Por ejemplo, genera un título para una imagen de entrada y luego utiliza ese título para crear una imagen de salida, y aplica similitud entre la imagen de entrada y la de salida. Nuestros experimentos muestran que ITIT con conjuntos de datos no emparejados exhibe un comportamiento de escalado similar al uso de datos emparejados de alta calidad. Demostramos un rendimiento en generación de imágenes y descripción de imágenes comparable con los modelos de última generación de texto a imagen e imagen a texto, utilizando órdenes de magnitud menos (solo 3M) de datos emparejados de imagen-texto.
Se han reportado grandes éxitos utilizando el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) para alinear modelos de lenguaje de gran escala. Los conjuntos de datos de preferencias de código abierto y los modelos de recompensa han permitido una experimentación más amplia más allá de los entornos genéricos de chat, particularmente para hacer que los sistemas sean más "útiles" en tareas como la respuesta a preguntas web, la resumen y el diálogo de múltiples turnos. Al optimizar para la utilidad, se ha observado consistentemente que el RLHF impulsa a los modelos a producir salidas más largas. Este artículo demuestra que la optimización de la longitud de la respuesta es un factor significativo detrás de las mejoras reportadas por el RLHF en estos entornos. Primero, estudiamos la relación entre la recompensa y la longitud para los modelos de recompensa entrenados en tres conjuntos de datos de preferencias de código abierto para la utilidad. Aquí, la longitud se correlaciona fuertemente con la recompensa, y las mejoras en la puntuación de recompensa se deben en gran parte a un cambio en la distribución de las longitudes de salida. Luego, exploramos intervenciones durante el aprendizaje tanto del RL como del modelo de recompensa para ver si podemos lograr las mismas mejoras posteriores que el RLHF sin aumentar la longitud. Si bien nuestras intervenciones mitigan los aumentos de longitud, no son uniformemente efectivas en todos los entornos. Además, encontramos que incluso ejecutar el RLHF con una recompensa basada únicamente en la longitud puede reproducir la mayoría de las mejoras posteriores sobre el modelo de política inicial, lo que muestra que los modelos de recompensa en estos entornos tienen un largo camino por recorrer.
Realizar tareas en la web presenta desafíos fundamentales para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), incluyendo tareas de mundo abierto combinatoriamente grandes y variaciones entre interfaces web. Simplemente especificar un prompt extenso para manejar todos los comportamientos y estados posibles es extremadamente complejo y resulta en fugas de comportamiento entre acciones no relacionadas. La descomposición en políticas distintas puede abordar este desafío, pero requiere transferir cuidadosamente el control entre políticas. Proponemos Políticas de LLM Apiladas para Acciones Web (SteP, por sus siglas en inglés), un enfoque para componer dinámicamente políticas que resuelvan un conjunto diverso de tareas web. SteP define un Proceso de Decisión de Markov donde el estado es una pila de políticas que representan el estado de control, es decir, la cadena de llamadas a políticas. A diferencia de los métodos tradicionales que se limitan a jerarquías estáticas, SteP permite un control dinámico que se adapta a la complejidad de la tarea. Evaluamos SteP frente a múltiples líneas base y entornos web, incluyendo WebArena, MiniWoB++ y un CRM. En WebArena, SteP mejora (del 14.9% al 33.5%) sobre el estado del arte que utiliza políticas de GPT-4, mientras que en MiniWoB++, SteP es competitivo con trabajos previos utilizando significativamente menos datos. Nuestro código y datos están disponibles en https://asappresearch.github.io/webagents-step.
Presentamos DragView, un marco novedoso e interactivo para generar vistas novedosas de escenas no vistas. DragView inicializa la nueva vista a partir de una única imagen fuente, y la renderización se apoya en un conjunto disperso de imágenes multivista sin pose, todo ejecutado de manera fluida en un único paso de avance. Nuestro enfoque comienza con los usuarios arrastrando una vista fuente a través de un sistema de coordenadas relativas local. Las características alineadas con píxeles se obtienen proyectando los puntos 3D muestreados a lo largo del rayo objetivo sobre la vista fuente. Luego, incorporamos una capa de modulación dependiente de la vista para manejar eficazmente las oclusiones durante la proyección. Además, ampliamos el mecanismo de atención epipolar para abarcar todos los píxeles fuente, facilitando la agregación de características de puntos alineados con coordenadas inicializadas desde otras vistas sin pose. Finalmente, empleamos otro transformador para decodificar las características del rayo en intensidades de píxeles finales. Es crucial destacar que nuestro marco no depende de modelos previos 2D ni de la estimación explícita de poses de cámara. Durante las pruebas, DragView demuestra la capacidad de generalizar a nuevas escenas no vistas durante el entrenamiento, utilizando únicamente imágenes de soporte sin pose, lo que permite la generación de nuevas vistas fotorrealistas caracterizadas por trayectorias de cámara flexibles. En nuestros experimentos, realizamos una comparación exhaustiva del rendimiento de DragView con redes recientes de representación de escenas que operan en condiciones libres de pose, así como con NeRFs generalizables sujetos a poses de cámara ruidosas durante las pruebas. DragView demuestra consistentemente su superior rendimiento en la calidad de síntesis de vistas, además de ser más amigable para el usuario. Página del proyecto: https://zhiwenfan.github.io/DragView/.