Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de generación de música a partir de texto son ahora capaces de producir audio musical de alta calidad en una amplia variedad de estilos. Sin embargo, el control mediante texto es principalmente adecuado para la manipulación de atributos musicales globales como el género, el estado de ánimo y el tempo, y es menos apropiado para un control preciso sobre atributos que varían en el tiempo, como la posición de los beats o la dinámica cambiante de la música. Proponemos Music ControlNet, un modelo de generación de música basado en difusión que ofrece múltiples controles precisos y variables en el tiempo sobre el audio generado. Para dotar a los modelos de texto a música con control variable en el tiempo, proponemos un enfoque análogo al control píxel a píxel del método ControlNet en el dominio de las imágenes. Específicamente, extraemos controles del audio de entrenamiento para obtener datos emparejados, y ajustamos un modelo generativo condicional basado en difusión sobre espectrogramas de audio dados controles de melodía, dinámica y ritmo. Mientras que el método Uni-ControlNet en el dominio de las imágenes ya permite la generación con cualquier subconjunto de controles, diseñamos una nueva estrategia para permitir a los creadores introducir controles que solo están parcialmente especificados en el tiempo. Evaluamos tanto en controles extraídos del audio como en controles que esperamos que los creadores proporcionen, demostrando que podemos generar música realista que se corresponde con las entradas de control en ambos escenarios. Aunque existen pocos modelos comparables de generación de música, comparamos nuestro modelo con MusicGen, un modelo reciente que acepta texto y melodía como entrada, y mostramos que nuestro modelo genera música que es un 49% más fiel a las melodías de entrada, a pesar de tener 35 veces menos parámetros, entrenarse con 11 veces menos datos y permitir dos formas adicionales de control variable en el tiempo. Los ejemplos de sonido pueden encontrarse en https://MusicControlNet.github.io/web/.
En este informe técnico, nos enfocamos en generar personajes antropomorfizados para personajes basados en modelos de lenguaje (LLM) de manera en línea, incluyendo apariencia visual, personalidad y tonos, utilizando únicamente descripciones textuales. Para lograrlo, primero aprovechamos la capacidad de aprendizaje en contexto de los LLM para la generación de personalidad mediante el diseño cuidadoso de un conjunto de indicaciones del sistema. Luego, proponemos dos conceptos novedosos: la mezcla de voces (MoV) y la mezcla de difusores (MoD) para la generación diversa de voces y apariencias. Para MoV, utilizamos algoritmos de texto a voz (TTS) con una variedad de tonos predefinidos y seleccionamos automáticamente el más adecuado basado en la descripción textual proporcionada por el usuario. Para MoD, combinamos técnicas recientes de generación de imágenes a partir de texto y algoritmos de cabezas parlantes para agilizar el proceso de generar objetos parlantes. Denominamos a este marco completo como ChatAnything. Con él, los usuarios podrían animar cualquier cosa con cualquier personaje antropomórfico utilizando solo unas pocas entradas de texto. Sin embargo, hemos observado que los objetos antropomórficos producidos por los modelos generativos actuales a menudo no son detectables por detectores de puntos de referencia faciales preentrenados, lo que lleva al fallo en la generación de movimientos faciales, incluso si estos rostros tienen apariencias humanoides, ya que esas imágenes casi no se ven durante el entrenamiento (por ejemplo, muestras fuera de distribución, OOD). Para abordar este problema, incorporamos guía a nivel de píxel para infundir puntos de referencia faciales humanos durante la fase de generación de imágenes. Para evaluar estas métricas, hemos construido un conjunto de datos de evaluación. Basándonos en él, verificamos que la tasa de detección de los puntos de referencia faciales aumenta significativamente del 57.0% al 92.5%, permitiendo así la animación facial automática basada en el contenido de voz generado. El código y más resultados se pueden encontrar en https://chatanything.github.io/.
Generar movimiento humano natural a partir de una historia tiene el potencial de transformar el panorama de las industrias de animación, videojuegos y cine. Surge una tarea nueva y desafiante, Story-to-Motion, cuando se requiere que los personajes se desplacen a varias ubicaciones y realicen movimientos específicos basados en una descripción textual extensa. Esta tarea exige una fusión de control de bajo nivel (trayectorias) y control de alto nivel (semántica del movimiento). Trabajos previos en control de personajes y texto-a-movimiento han abordado aspectos relacionados, pero una solución integral sigue siendo esquiva: los métodos de control de personajes no manejan descripciones textuales, mientras que los métodos de texto-a-movimiento carecen de restricciones de posición y a menudo producen movimientos inestables. Ante estas limitaciones, proponemos un sistema novedoso que genera movimientos y trayectorias controlables, infinitamente largos y alineados con el texto de entrada. (1) Aprovechamos los modelos de lenguaje de gran escala contemporáneos para actuar como un planificador de movimientos impulsado por texto, extrayendo una serie de pares (texto, posición, duración) de textos largos. (2) Desarrollamos un esquema de recuperación de movimientos impulsado por texto que incorpora la coincidencia de movimientos con restricciones semánticas y de trayectoria. (3) Diseñamos un transformador progresivo con máscara que aborda artefactos comunes en los movimientos de transición, como posturas antinaturales y deslizamiento de pies. Más allá de su papel pionero como la primera solución integral para Story-to-Motion, nuestro sistema se evalúa en tres sub-tareas distintas: seguimiento de trayectorias, composición temporal de acciones y mezcla de movimientos, donde supera a los métodos de síntesis de movimiento más avanzados en todos los aspectos. Página web: https://story2motion.github.io/.
Los modelos fundacionales multimodales, representados por GPT-4V, han introducido un nuevo paradigma para tareas de percepción y comprensión visual de bajo nivel, permitiendo responder a una amplia gama de instrucciones naturales humanas en un modelo. Aunque los modelos fundacionales existentes han mostrado un potencial prometedor en tareas visuales de bajo nivel, sus capacidades relacionadas aún son preliminares y necesitan mejorarse. Para potenciar estos modelos, llevamos a cabo un experimento subjetivo a gran escala, recopilando un vasto número de comentarios reales de humanos sobre visión de bajo nivel. Cada comentario sigue una ruta que comienza con una descripción detallada de la apariencia visual de bajo nivel (*por ejemplo, claridad, color, brillo* de una imagen) y termina con una conclusión general, con una longitud promedio de 45 palabras. El conjunto de datos **Q-Pathway** construido incluye 58K comentarios humanos detallados sobre 18,973 imágenes con diversas apariencias de bajo nivel. Además, para permitir que los modelos fundacionales respondan de manera robusta a diversos tipos de preguntas, diseñamos una conversión con participación de GPT para procesar estos comentarios en 200K pares de instrucción-respuesta de diversos formatos. Los resultados experimentales indican que **Q-Instruct** eleva consistentemente las capacidades de percepción y comprensión de bajo nivel en varios modelos fundacionales. Anticipamos que nuestros conjuntos de datos pueden allanar el camino hacia un futuro en el que la inteligencia general pueda percibir, comprender la apariencia visual de bajo nivel y evaluar la calidad visual como lo haría un humano. Nuestro conjunto de datos, modelo zoo y demo están publicados en: https://q-future.github.io/Q-Instruct.
Los métodos existentes de ajuste fino de instrucciones visuales suelen utilizar descripciones textuales para generar datos que sigan instrucciones en modelos de lenguaje grandes. A pesar del rendimiento prometedor logrado, estas descripciones se derivan de anotaciones de imágenes, que a menudo son de grano grueso. Además, las instrucciones podrían incluso contradecir el contenido visual sin observar el contexto visual completo. Para abordar este desafío, presentamos un conjunto de datos de instrucciones visuales de grano fino, LVIS-Instruct4V, que contiene 220K instrucciones visualmente alineadas y conscientes del contexto, producidas al utilizar el potente GPT-4V con imágenes de LVIS. A través de validación experimental y estudios de casos, demostramos que los datos de instrucciones visuales de alta calidad pueden mejorar el rendimiento de LLaVA-1.5, un modelo multimodal grande de última generación, en una amplia gama de benchmarks con márgenes claros. Notablemente, al simplemente reemplazar LLaVA-Instruct con nuestro LVIS-Instruct4V, logramos mejores resultados que LLaVA en la mayoría de los benchmarks desafiantes para modelos multimodales grandes (LMM), por ejemplo, LLaVA^w (76.7 vs. 70.7) y MM-Vet (40.2 vs. 35.4). Publicamos nuestros datos y modelo en https://github.com/X2FD/LVIS-INSTRUCT4V.
En escenarios de implementación como hogares y almacenes, se espera que los robots móviles naveguen de manera autónoma durante períodos prolongados, ejecutando tareas de forma fluida que se expresan en términos intuitivamente comprensibles para los operadores humanos. Presentamos GO To Any Thing (GOAT), un sistema de navegación universal capaz de abordar estos requisitos con tres características clave: a) Multimodal: puede manejar objetivos especificados mediante etiquetas de categoría, imágenes objetivo y descripciones en lenguaje natural, b) De larga duración: se beneficia de su experiencia previa en el mismo entorno, y c) Independiente de la plataforma: puede implementarse rápidamente en robots con diferentes configuraciones físicas. GOAT es posible gracias a un diseño de sistema modular y una memoria semántica consciente de instancias que se amplía continuamente, la cual registra la apariencia de objetos desde diferentes perspectivas, además de la semántica a nivel de categoría. Esto permite a GOAT distinguir entre diferentes instancias de la misma categoría para facilitar la navegación hacia objetivos especificados por imágenes y descripciones en lenguaje natural. En comparaciones experimentales que abarcan más de 90 horas en 9 hogares diferentes, con 675 objetivos seleccionados entre más de 200 instancias de objetos, encontramos que GOAT logra una tasa de éxito general del 83%, superando métodos anteriores y variantes en un 32% (mejora absoluta). GOAT mejora con la experiencia en el entorno, pasando de una tasa de éxito del 60% en el primer objetivo a un 90% después de la exploración. Además, demostramos que GOAT puede aplicarse fácilmente a tareas posteriores como recoger y colocar objetos, así como a la navegación social.
Presentamos SPHINX, un modelo de lenguaje multimodal de gran escala (MLLM) versátil con una mezcla conjunta de pesos del modelo, tareas de ajuste y representaciones visuales. En primer lugar, para lograr una mejor alineación entre visión y lenguaje, descongelamos el modelo de lenguaje de gran escala (LLM) durante el preentrenamiento e introducimos una estrategia de mezcla de pesos entre LLM entrenados con datos del mundo real y sintéticos. Al integrar directamente los pesos de ambos dominios, el LLM mezclado puede incorporar de manera eficiente semánticas diversas con una robustez favorable. Luego, para habilitar capacidades multipropósito, mezclamos una variedad de tareas para un ajuste conjunto de instrucciones visuales y diseñamos instrucciones específicas para cada tarea, evitando conflictos entre ellas. Además de la respuesta básica a preguntas visuales, incluimos tareas más desafiantes como la comprensión a nivel de región, la anclaje de descripciones, la detección de diseño de documentos y la estimación de posturas humanas, contribuyendo a una mejora mutua en diferentes escenarios. Adicionalmente, proponemos extraer representaciones visuales integrales de diversas arquitecturas de red, paradigmas de preentrenamiento y granularidad de información, proporcionando a los modelos de lenguaje representaciones de imágenes más robustas. Basado en nuestra propuesta de mezcla conjunta, SPHINX exhibe capacidades superiores de comprensión multimodal en una amplia gama de aplicaciones. Sobre esto, proponemos además una estrategia eficiente para capturar mejor las apariencias detalladas de imágenes de alta resolución. Con una mezcla de diferentes escalas y subimágenes de alta resolución, SPHINX alcanza un rendimiento excepcional en análisis visual y razonamiento en los benchmarks de evaluación existentes. Esperamos que nuestro trabajo arroje luz sobre la exploración de la mezcla conjunta en futuras investigaciones de MLLM. El código está disponible en https://github.com/Alpha-VLLM/LLaMA2-Accessory.
Presentamos MM-Navigator, un agente basado en GPT-4V para la tarea de navegación en interfaces gráficas de usuario (GUI) de smartphones. MM-Navigator puede interactuar con la pantalla de un smartphone como lo haría un usuario humano, y determinar las acciones subsiguientes para cumplir con las instrucciones dadas. Nuestros hallazgos demuestran que los modelos multimodales de gran escala (LMMs), específicamente GPT-4V, sobresalen en la navegación GUI en modo zero-shot gracias a sus avanzadas capacidades de interpretación de pantalla, razonamiento de acciones y localización precisa de acciones. Primero, evaluamos MM-Navigator en nuestro conjunto de datos de pantallas iOS recopilado. Según evaluaciones humanas, el sistema mostró una tasa de precisión del 91% en la generación de descripciones de acciones razonables y un 75% de precisión en la ejecución de las acciones correctas para instrucciones de un solo paso en iOS. Además, evaluamos el modelo en un subconjunto de un conjunto de datos de navegación en pantallas Android, donde el modelo superó a los navegadores GUI anteriores en un enfoque zero-shot. Nuestro benchmark y análisis detallados buscan sentar una base sólida para futuras investigaciones en la tarea de navegación GUI. La página del proyecto se encuentra en https://github.com/zzxslp/MM-Navigator.
Recientemente, ha habido un avance rápido en la investigación sobre Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), lo que ha resultado en un progreso significativo en varias tareas de Procesamiento del Lenguaje Natural (NLP). Como consecuencia, ha surgido un aumento en la investigación sobre la evaluación de LLMs para comprender las capacidades y limitaciones de estos modelos. Sin embargo, gran parte de esta investigación se ha limitado al idioma inglés, dejando relativamente inexplorada la construcción y evaluación de LLMs para lenguas no inglesas. Se han introducido varios LLMs nuevos, lo que ha hecho necesario su evaluación en lenguas no inglesas. Este estudio tiene como objetivo ampliar nuestra suite de evaluación MEGA al incluir seis nuevos conjuntos de datos para formar el benchmark MEGAVERSE. Este benchmark comprende 22 conjuntos de datos que cubren 81 idiomas, incluyendo lenguas africanas de bajos recursos. Evaluamos varios LLMs de vanguardia como GPT-3.5-Turbo, GPT4, PaLM2 y Llama2 en los conjuntos de datos de MEGAVERSE. Además, incluimos dos conjuntos de datos multimodales en el benchmark y evaluamos el rendimiento del modelo LLaVa-v1.5. Nuestros experimentos sugieren que GPT4 y PaLM2 superan a los modelos Llama en diversas tareas, especialmente en lenguas de bajos recursos, con GPT4 superando a PaLM2 en más conjuntos de datos que viceversa. Sin embargo, es necesario abordar problemas como la contaminación de datos para obtener una evaluación precisa del rendimiento de los LLMs en lenguas no inglesas.
En los últimos años, avances revolucionarios en el procesamiento del lenguaje natural han culminado en la aparición de potentes modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), los cuales han demostrado capacidades notables en una amplia gama de dominios, incluyendo la comprensión, generación y traducción del lenguaje natural, e incluso tareas que van más allá del procesamiento del lenguaje. En este informe, profundizamos en el desempeño de los LLMs en el contexto del descubrimiento científico, centrándonos en GPT-4, el modelo de lenguaje más avanzado hasta la fecha. Nuestra investigación abarca una diversidad de áreas científicas que incluyen el descubrimiento de fármacos, la biología, la química computacional (teoría del funcional de la densidad (DFT) y dinámica molecular (MD)), el diseño de materiales y las ecuaciones diferenciales parciales (PDE). Evaluar GPT-4 en tareas científicas es crucial para descubrir su potencial en diversos dominios de investigación, validar su experiencia específica en cada campo, acelerar el progreso científico, optimizar la asignación de recursos, guiar el desarrollo futuro de modelos y fomentar la investigación interdisciplinaria. Nuestra metodología de exploración consiste principalmente en evaluaciones de casos dirigidas por expertos, que ofrecen perspectivas cualitativas sobre la comprensión del modelo de conceptos y relaciones científicas complejas, y ocasionalmente pruebas de referencia, que evalúan cuantitativamente la capacidad del modelo para resolver problemas bien definidos en dominios específicos. Nuestra exploración preliminar indica que GPT-4 muestra un potencial prometedor para una variedad de aplicaciones científicas, demostrando su aptitud para manejar tareas complejas de resolución de problemas e integración de conocimientos. En términos generales, evaluamos la base de conocimientos de GPT-4, su comprensión científica, sus habilidades de cálculo numérico científico y sus diversas capacidades de predicción científica.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se entrenan con corpus de escala web que inevitablemente incluyen información factual contradictoria proveniente de fuentes de diversa confiabilidad. En este artículo, proponemos medir una propiedad de los LLMs llamada alineación con fuentes confiables (TSA, por sus siglas en inglés): la tendencia del modelo a alinearse con contenido producido por publicaciones confiables frente a la incertidumbre o la controversia. Presentamos FactCheckQA, un conjunto de datos de evaluación de TSA basado en un corpus de artículos de verificación de hechos. Describimos un protocolo simple para evaluar la TSA y ofrecemos un análisis detallado de consideraciones de diseño, incluyendo la extracción de respuestas, la contextualización de afirmaciones y el sesgo en la formulación de indicaciones. Al aplicar el protocolo a PaLM-2, encontramos que, a medida que aumentamos el tamaño del modelo, su rendimiento en FactCheckQA mejora desde una precisión equilibrada cercana al azar hasta un 80% en la alineación con fuentes confiables.
La generación condicional de diseños gráficos, que mapea automáticamente las restricciones del usuario a diseños de alta calidad, ha atraído una atención generalizada en la actualidad. Aunque trabajos recientes han logrado un rendimiento prometedor, la falta de versatilidad y eficiencia en el uso de datos dificulta sus aplicaciones prácticas. En este trabajo, proponemos LayoutPrompter, que aprovecha los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para abordar los problemas anteriores mediante el aprendizaje en contexto. LayoutPrompter está compuesto por tres componentes clave: serialización de entrada-salida, selección dinámica de ejemplos y clasificación de diseños. Específicamente, el componente de serialización de entrada-salida diseña meticulosamente los formatos de entrada y salida para cada tarea de generación de diseños. La selección dinámica de ejemplos es responsable de elegir los ejemplos de indicación más útiles para una entrada dada. Y un clasificador de diseños se utiliza para seleccionar el diseño de mayor calidad entre múltiples salidas de los LLMs. Realizamos experimentos en todas las tareas existentes de generación de diseños utilizando cuatro conjuntos de datos públicos. A pesar de la simplicidad de nuestro enfoque, los resultados experimentales muestran que LayoutPrompter puede competir o incluso superar a los enfoques más avanzados en estas tareas sin necesidad de entrenamiento o ajuste del modelo. Esto demuestra la eficacia de este enfoque versátil y libre de entrenamiento. Además, los estudios de ablación muestran que LayoutPrompter es significativamente superior a la línea base basada en entrenamiento en un régimen de datos limitados, lo que indica aún más la eficiencia en el uso de datos de LayoutPrompter. Nuestro proyecto está disponible en https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.
Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) como T0, FLAN y OPT-IML destacan en la realización de múltiples tareas bajo un paradigma unificado de seguimiento de instrucciones, donde también exhiben una notable capacidad de generalización hacia tareas no vistas. A pesar de su impresionante rendimiento, estos LLMs, con tamaños que van desde varios miles de millones hasta cientos de miles de millones de parámetros, requieren recursos computacionales sustanciales, lo que hace que su entrenamiento e inferencia sean costosos e ineficientes. Además, adaptar estos modelos a aplicaciones específicas, particularmente tareas complejas, a menudo no es factible debido a los extensos requisitos de hardware para el ajuste fino, incluso cuando se utilizan enfoques eficientes en parámetros como el ajuste de prompts. Adicionalmente, los LLMs más potentes para múltiples tareas, como OPT-IML-175B y FLAN-PaLM-540B, no son de acceso público, lo que limita severamente su potencial de personalización. Para abordar estos desafíos, presentamos un pequeño clasificador preentrenado, Cappy, diseñado para mejorar el rendimiento y la eficiencia de los LLMs de múltiples tareas. Con apenas 360 millones de parámetros, Cappy funciona de manera independiente en tareas de clasificación o como un componente auxiliar para los LLMs, mejorando su rendimiento. Además, Cappy permite integrar eficientemente la supervisión de tareas específicas sin necesidad de ajustar el LLM ni acceder a sus parámetros. Nuestros experimentos demuestran que, al trabajar de manera independiente en 11 tareas de comprensión del lenguaje de PromptSource, Cappy supera a LLMs que son varios órdenes de magnitud más grandes. Además, en 45 tareas complejas de BIG-Bench, Cappy mejora significativamente el rendimiento del avanzado LLM de múltiples tareas, FLAN-T5. Además, Cappy es flexible para cooperar con otras adaptaciones de LLMs, incluyendo el ajuste fino y el aprendizaje en contexto, ofreciendo una mejora adicional en el rendimiento.
En este trabajo, extendemos el modelo Llama-2 ajustado por instrucciones con capacidades de procesamiento y razonamiento de habla de propósito general de extremo a extremo, manteniendo la amplia gama de capacidades de los LLM, sin utilizar datos cuidadosamente seleccionados y emparejados. El modelo propuesto puede utilizar señales de audio como reemplazo del texto y sostener una conversación. Tal modelo también tiene capacidades multimodales extendidas, como poder realizar respuestas a preguntas basadas en habla, traducción de habla y resumen de audio, entre muchas otras tareas de dominio cerrado y abierto. Esto difiere de enfoques previos en el procesamiento de habla, en los que los LLM se extienden para manejar audio en un número limitado de tareas predefinidas. Los experimentos muestran que nuestro enfoque de extremo a extremo es comparable o supera a un sistema en cascada (reconocedor de habla + LLM) en términos de modelar la respuesta a una indicación. Además, a diferencia de un sistema en cascada, nuestro enfoque muestra la capacidad de intercambiar modalidades de texto y audio y utilizar el contexto previo en una conversación para proporcionar mejores resultados.
Introducimos y estudiamos el problema de la aritmética adversaria, que proporciona un banco de pruebas simple pero desafiante para la alineación de modelos de lenguaje. Este problema consiste en preguntas aritméticas formuladas en lenguaje natural, con una cadena adversaria arbitraria insertada antes de que la pregunta esté completa. Incluso en el escenario simple de problemas de suma de un dígito, es fácil encontrar indicaciones adversarias que hagan que todos los modelos probados (incluyendo PaLM2, GPT4, Claude2) se comporten incorrectamente, e incluso para dirigir a los modelos hacia una respuesta errónea específica. Además, proporcionamos un algoritmo simple para encontrar ataques exitosos consultando esos mismos modelos, al que denominamos "muestreo por rechazo de inversión de indicaciones" (PIRS, por sus siglas en inglés). Finalmente, demostramos que los modelos pueden ser parcialmente fortalecidos contra estos ataques mediante aprendizaje por refuerzo y mediante bucles constitucionales agentes. Sin embargo, no logramos hacer que un modelo de lenguaje sea completamente robusto contra los ataques de aritmética adversaria.