Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Voyager, el primer agente de aprendizaje continuo encarnado impulsado por un LLM en Minecraft que explora el mundo de manera continua, adquiere diversas habilidades y realiza descubrimientos novedosos sin intervención humana. Voyager consta de tres componentes clave: 1) un plan de estudios automático que maximiza la exploración, 2) una biblioteca de habilidades en constante crecimiento que almacena y recupera comportamientos complejos en forma de código ejecutable, y 3) un nuevo mecanismo de prompting iterativo que incorpora retroalimentación del entorno, errores de ejecución y autoverificación para mejorar los programas. Voyager interactúa con GPT-4 mediante consultas de caja negra, lo que elimina la necesidad de ajustar los parámetros del modelo. Las habilidades desarrolladas por Voyager son temporalmente extendidas, interpretables y composicionales, lo que acelera rápidamente las capacidades del agente y mitiga el olvido catastrófico. Empíricamente, Voyager demuestra una fuerte capacidad de aprendizaje continuo en contexto y exhibe un dominio excepcional en la jugabilidad de Minecraft. Obtiene 3.3 veces más objetos únicos, recorre distancias 2.3 veces más largas y desbloquea hitos clave del árbol tecnológico hasta 15.3 veces más rápido que los métodos anteriores de última generación. Voyager es capaz de utilizar la biblioteca de habilidades aprendidas en un nuevo mundo de Minecraft para resolver tareas novedosas desde cero, mientras que otras técnicas tienen dificultades para generalizar. Hemos liberado nuestro código completo y los prompts en https://voyager.minedojo.org/.
El muestreo por destilación de puntuación (SDS, por sus siglas en inglés) ha demostrado un gran potencial en la generación de texto a 3D al destilar modelos de difusión de texto a imagen preentrenados a gran escala, pero sufre problemas de sobresaturación, suavizado excesivo y baja diversidad. En este trabajo, proponemos modelar el parámetro 3D como una variable aleatoria en lugar de una constante, como se hace en SDS, y presentamos la destilación de puntuación variacional (VSD, por sus siglas en inglés), un marco variacional basado en partículas que aborda de manera fundamentada los problemas mencionados en la generación de texto a 3D. Demostramos que SDS es un caso especial de VSD y produce muestras deficientes tanto con pesos pequeños como grandes en la guía de clasificación libre (CFG, por sus siglas en inglés). En comparación, VSD funciona bien con diversos pesos de CFG, similar al muestreo ancestral en modelos de difusión, y mejora simultáneamente la diversidad y la calidad de las muestras con un peso común de CFG (es decir, 7.5). Además, presentamos varias mejoras en el espacio de diseño para la generación de texto a 3D, como la programación del tiempo de destilación y la inicialización de densidad, que son ortogonales al algoritmo de destilación pero no han sido bien exploradas. Nuestro enfoque general, denominado ProlificDreamer, puede generar representaciones de alta resolución (es decir, 512x512) y NeRF de alta fidelidad con estructuras ricas y efectos complejos (por ejemplo, humo y gotas). Además, inicializados a partir de NeRF, las mallas ajustadas mediante VSD presentan detalles meticulosos y un aspecto fotorrealista. Página del proyecto: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
Un método emergente para mejorar de manera económica un modelo de lenguaje más débil es ajustarlo (finetune) con salidas de un modelo más potente, como un sistema propietario como ChatGPT (por ejemplo, Alpaca, Self-Instruct y otros). Este enfoque busca imitar de manera económica las capacidades del modelo propietario utilizando un modelo de código abierto más débil. En este trabajo, analizamos críticamente este enfoque. Primero, ajustamos una serie de modelos de lenguaje (LMs) que imitan a ChatGPT utilizando diferentes tamaños de modelos base (1.5B--13B), fuentes de datos y cantidades de datos de imitación (0.3M--150M tokens). Luego, evaluamos los modelos utilizando evaluadores humanos y benchmarks canónicos de PLN. Inicialmente, nos sorprendió la calidad de las salidas de nuestros modelos de imitación: parecen ser mucho mejores siguiendo instrucciones, y los evaluadores humanos califican sus salidas como competitivas con ChatGPT. Sin embargo, al realizar evaluaciones automáticas más específicas, encontramos que los modelos de imitación reducen poco o nada la brecha entre el modelo base y ChatGPT en tareas que no están fuertemente respaldadas en los datos de imitación. Mostramos que estas discrepancias de rendimiento pueden pasar desapercibidas para los evaluadores humanos porque los modelos de imitación son hábiles para imitar el estilo de ChatGPT, pero no su factualidad. En general, concluimos que la imitación de modelos es una promesa falsa: existe una brecha sustancial de capacidades entre los LMs de código abierto y los cerrados que, con los métodos actuales, solo puede cerrarse utilizando una cantidad ingente de datos de imitación o utilizando modelos base más capaces. A su vez, argumentamos que la acción de mayor impacto para mejorar los modelos de código abierto es abordar el difícil desafío de desarrollar mejores modelos base, en lugar de tomar el atajo de imitar sistemas propietarios.
Los excepcionales resultados de generación de texto a imagen (T2I) de los modelos Stable Diffusion (SDMs) vienen acompañados de demandas computacionales sustanciales. Para resolver este problema, investigaciones recientes sobre SDMs eficientes han priorizado la reducción del número de pasos de muestreo y el uso de cuantización de redes. De manera ortogonal a estas direcciones, este estudio destaca el poder de la compresión arquitectónica clásica para la síntesis T2I de propósito general mediante la introducción de SDMs con eliminación de bloques y destilación de conocimiento (BK-SDMs). Eliminamos varios bloques residuales y de atención de la U-Net de los SDMs, logrando una reducción de más del 30% en el número de parámetros, operaciones MAC por paso de muestreo y latencia. Realizamos un preentrenamiento basado en destilación con solo 0.22 millones de pares de LAION (menos del 0.1% de los pares de entrenamiento completos) en una sola GPU A100. A pesar de ser entrenados con recursos limitados, nuestros modelos compactos pueden imitar al SDM original al beneficiarse del conocimiento transferido y logran resultados competitivos frente a modelos más grandes con miles de millones de parámetros en el benchmark zero-shot MS-COCO. Además, demostramos la aplicabilidad de nuestros modelos preentrenados livianos en la generación personalizada mediante el ajuste fino con DreamBooth.
Los modelos de difusión de texto a imagen pueden generar imágenes diversas y de alta fidelidad basadas en indicaciones de texto proporcionadas por el usuario. Investigaciones recientes han extendido estos modelos para permitir la edición de imágenes guiada por texto. Aunque la guía textual es una interfaz intuitiva para los usuarios, a menudo no logra garantizar el concepto preciso que estos desean transmitir. Para abordar este problema, proponemos Custom-Edit, en el cual (i) personalizamos un modelo de difusión con unas pocas imágenes de referencia y luego (ii) realizamos la edición guiada por texto. Nuestro descubrimiento clave es que personalizar únicamente los parámetros relevantes para el lenguaje con indicaciones aumentadas mejora significativamente la similitud con la referencia, manteniendo al mismo tiempo la similitud con la fuente. Además, proporcionamos nuestra receta para cada proceso de personalización y edición. Comparamos métodos de personalización populares y validamos nuestros hallazgos en dos métodos de edición utilizando diversos conjuntos de datos.
Los avances recientes en la generación de música han sido notablemente impulsados por el estado del arte de MusicLM, que comprende una jerarquía de tres modelos de lenguaje (LM), respectivamente, para el modelado semántico, acústico grueso y acústico fino. Sin embargo, el muestreo con MusicLM requiere procesar estos LM uno por uno para obtener los tokens acústicos de grano fino, lo que lo hace computacionalmente costoso y prohibitivo para una generación en tiempo real. La generación eficiente de música con una calidad comparable a MusicLM sigue siendo un desafío significativo. En este artículo, presentamos MeLoDy (M para música; L para LM; D para difusión), un modelo de difusión guiado por LM que genera audios musicales de calidad de vanguardia mientras reduce un 95,7% o un 99,6% de las pasadas hacia adelante en MusicLM, respectivamente, para muestrear música de 10s o 30s. MeLoDy hereda el LM de nivel más alto de MusicLM para el modelado semántico y aplica un novedoso modelo de difusión de doble vía (DPD) y un VAE-GAN de audio para decodificar eficientemente los tokens semánticos de condicionamiento en forma de onda. DPD se propone para modelar simultáneamente la acústica gruesa y fina incorporando la información semántica en segmentos de latentes de manera efectiva mediante atención cruzada en cada paso de eliminación de ruido. Nuestros resultados experimentales sugieren la superioridad de MeLoDy, no solo en sus ventajas prácticas en velocidad de muestreo y generación infinitamente continuable, sino también en su musicalidad, calidad de audio y correlación con el texto de vanguardia. Nuestras muestras están disponibles en https://Efficient-MeLoDy.github.io/.
Presentamos Campos de Difusión en Variedades (MDF, por sus siglas en inglés), un enfoque para aprender modelos generativos de funciones continuas definidas sobre variedades de Riemann. Aprovechando ideas del análisis de geometría espectral, definimos un sistema de coordenadas intrínseco en la variedad mediante las funciones propias del Operador de Laplace-Beltrami. MDF representa funciones utilizando una parametrización explícita formada por un conjunto de pares entrada-salida. Nuestro enfoque permite muestrear funciones continuas en variedades y es invariante respecto a transformaciones rígidas e isométricas de la variedad. Los resultados empíricos en varios conjuntos de datos y variedades muestran que MDF puede capturar distribuciones de dichas funciones con mayor diversidad y fidelidad que enfoques anteriores.
Los modelos de difusión de texto a imagen son ahora capaces de generar imágenes que a menudo son indistinguibles de las imágenes reales. Para generar tales imágenes, estos modelos deben comprender la semántica de los objetos que se les pide generar. En este trabajo demostramos que, sin ningún entrenamiento, se puede aprovechar este conocimiento semántico dentro de los modelos de difusión para encontrar correspondencias semánticas: ubicaciones en múltiples imágenes que tienen el mismo significado semántico. Específicamente, dada una imagen, optimizamos los embeddings de los prompts de estos modelos para maximizar la atención en las regiones de interés. Estos embeddings optimizados capturan información semántica sobre la ubicación, que luego puede transferirse a otra imagen. Al hacerlo, obtenemos resultados comparables con el estado del arte fuertemente supervisado en el conjunto de datos PF-Willow y superamos significativamente (20.9% relativo para el conjunto de datos SPair-71k) cualquier método débilmente supervisado o no supervisado existente en los conjuntos de datos PF-Willow, CUB-200 y SPair-71k.