Artículos de investigación en IA seleccionados diariamente con traducciones
El entrenamiento de modelos de texto a imagen con pares de imagen-texto a escala web permite la generación de una amplia gama de conceptos visuales a partir de texto. Sin embargo, estos modelos preentrenados a menudo enfrentan desafíos cuando se trata de generar imágenes altamente estéticas. Esto crea la necesidad de una alineación estética posterior al preentrenamiento. En este artículo, proponemos el ajuste de calidad para guiar eficazmente a un modelo preentrenado a generar exclusivamente imágenes visualmente atractivas, manteniendo la generalidad en los conceptos visuales. Nuestra idea clave es que el ajuste fino supervisado con un conjunto sorprendentemente pequeño pero extremadamente visualmente atractivo de imágenes puede mejorar significativamente la calidad de la generación. Preentrenamos un modelo de difusión latente en 1.1 mil millones de pares de imagen-texto y lo ajustamos con solo unos pocos miles de imágenes de alta calidad cuidadosamente seleccionadas. El modelo resultante, Emu, logra una tasa de victoria del 82.9% en comparación con su contraparte solo preentrenada. En comparación con el estado del arte SDXLv1.0, Emu es preferido el 68.4% y el 71.3% de las veces en atractivo visual en los estándares PartiPrompts y nuestro benchmark Open User Input basado en el uso en el mundo real de modelos de texto a imagen. Además, mostramos que el ajuste de calidad es un enfoque genérico que también es efectivo para otras arquitecturas, incluyendo modelos de difusión de píxeles y modelos de transformadores generativos enmascarados.
Proponemos reemplazar la cuantización vectorial (VQ) en la representación latente de los VQ-VAE con un esquema simple denominado cuantización escalar finita (FSQ), donde proyectamos la representación del VAE en unas pocas dimensiones (típicamente menos de 10). Cada dimensión se cuantiza a un pequeño conjunto de valores fijos, lo que da lugar a un (implícito) libro de códigos dado por el producto de estos conjuntos. Al elegir adecuadamente el número de dimensiones y los valores que cada dimensión puede tomar, obtenemos el mismo tamaño de libro de códigos que en VQ. Sobre tales representaciones discretas, podemos entrenar los mismos modelos que se han entrenado con representaciones de VQ-VAE. Por ejemplo, modelos autoregresivos y transformadores enmascarados para generación de imágenes, generación multimodal y tareas de visión por computadora de predicción densa. Concretamente, empleamos FSQ con MaskGIT para generación de imágenes, y con UViM para estimación de profundidad, colorización y segmentación panóptica. A pesar del diseño mucho más simple de FSQ, obtenemos un rendimiento competitivo en todas estas tareas. Destacamos que FSQ no sufre de colapso del libro de códigos y no necesita la maquinaria compleja empleada en VQ (pérdidas de compromiso, resiembra del libro de códigos, división de códigos, penalizaciones de entropía, etc.) para aprender representaciones discretas expresivas.
Proponemos un sistema de modelado de lenguaje neuronal basado en adaptación de bajo rango (LoRA) para la revalorización de salidas de reconocimiento de voz. Aunque los modelos de lenguaje preentrenados (LM) como BERT han demostrado un rendimiento superior en la revalorización de segunda pasada, el alto costo computacional de escalar la etapa de preentrenamiento y adaptar los modelos preentrenados a dominios específicos limita su uso práctico en la revalorización. Aquí presentamos un método basado en descomposición de bajo rango para entrenar un modelo BERT de revalorización y adaptarlo a nuevos dominios utilizando solo una fracción (0.08%) de los parámetros preentrenados. Estas matrices insertadas se optimizan mediante un objetivo de entrenamiento discriminativo junto con una pérdida de regularización basada en correlación. La arquitectura propuesta de BERT de revalorización con adaptación de bajo rango (LoRB) se evalúa en los conjuntos de datos LibriSpeech e internos, con tiempos de entrenamiento reducidos en factores entre 5.4 y 3.6.
Se han logrado avances significativos en el ámbito de los modelos de difusión de texto a vídeo preentrenados a gran escala (VDMs, por sus siglas en inglés). Sin embargo, los métodos anteriores se basan únicamente en VDMs basados en píxeles, que conllevan altos costos computacionales, o en VDMs basados en latentes, que a menudo tienen dificultades para lograr una alineación precisa entre el texto y el vídeo. En este artículo, somos los primeros en proponer un modelo híbrido, denominado Show-1, que combina VDMs basados en píxeles y latentes para la generación de vídeos a partir de texto. Nuestro modelo utiliza primero VDMs basados en píxeles para producir un vídeo de baja resolución con una fuerte correlación entre el texto y el vídeo. Posteriormente, proponemos un novedoso método de traducción experta que emplea VDMs basados en latentes para aumentar aún más la resolución del vídeo de baja resolución a alta resolución. En comparación con los VDMs latentes, Show-1 puede producir vídeos de alta calidad con una alineación precisa entre el texto y el vídeo; en comparación con los VDMs basados en píxeles, Show-1 es mucho más eficiente (el uso de memoria GPU durante la inferencia es de 15G frente a 72G). También validamos nuestro modelo en benchmarks estándar de generación de vídeos. Nuestro código y los pesos del modelo están disponibles públicamente en https://github.com/showlab/Show-1.
Presentamos un nuevo tipo de campos neuronales que utiliza bases radiales generales para la representación de señales. Los campos neuronales de vanguardia suelen basarse en representaciones basadas en cuadrículas para almacenar características neuronales locales y núcleos lineales N-dimensionales para interpolar características en puntos de consulta continuos. Las posiciones espaciales de sus características neuronales están fijas en los nodos de la cuadrícula y no pueden adaptarse bien a las señales objetivo. Nuestro método, en cambio, se basa en bases radiales generales con posición y forma de núcleo flexibles, que tienen una mayor adaptabilidad espacial y pueden ajustarse más estrechamente a las señales objetivo. Para mejorar aún más la capacidad por canal de las funciones de base radial, proponemos componerlas con funciones sinusoidales multifrecuencia. Esta técnica extiende una base radial a múltiples bases radiales de Fourier de diferentes bandas de frecuencia sin requerir parámetros adicionales, facilitando la representación de detalles. Además, al combinar bases radiales adaptativas con las basadas en cuadrículas, nuestra combinación híbrida hereda tanto la adaptabilidad como la suavidad de la interpolación. Diseñamos cuidadosamente esquemas de ponderación para permitir que las bases radiales se adapten eficazmente a diferentes tipos de señales. Nuestros experimentos en la representación de imágenes 2D y campos de distancia con signo 3D demuestran la mayor precisión y compacidad de nuestro método en comparación con técnicas anteriores. Cuando se aplica a la reconstrucción de campos de radiancia neuronal, nuestro método alcanza una calidad de renderizado de vanguardia, con un tamaño de modelo reducido y una velocidad de entrenamiento comparable.
En los últimos años, los avances en el preentrenamiento a gran escala de modelos de lenguaje y de texto a imagen han revolucionado el campo del aprendizaje automático. Sin embargo, integrar estas dos modalidades en un único modelo robusto capaz de generar salidas multimodales fluidas sigue siendo un desafío significativo. Para abordar esta brecha, presentamos el marco Joint Autoregressive Mixture (JAM), un enfoque modular que fusiona sistemáticamente modelos existentes de generación de texto e imágenes. También introducimos una estrategia especializada y eficiente en datos de ajuste por instrucciones, diseñada específicamente para tareas de generación multimodal mixta. Nuestro modelo final ajustado por instrucciones demuestra un rendimiento sin precedentes en la generación de salidas multimodales de alta calidad y representa el primer modelo explícitamente diseñado para este propósito.
Comprender cómo los humanos utilizan el contacto físico para interactuar con el mundo es clave para habilitar una inteligencia artificial centrada en el ser humano. Si bien inferir el contacto en 3D es crucial para modelar interacciones humano-objeto realistas y físicamente plausibles, los métodos existentes se centran en 2D, consideran articulaciones corporales en lugar de la superficie, utilizan regiones corporales 3D aproximadas o no generalizan a imágenes en entornos no controlados. En contraste, nos enfocamos en inferir el contacto denso en 3D entre toda la superficie corporal y objetos en imágenes arbitrarias. Para lograrlo, primero recopilamos DAMON, un nuevo conjunto de datos que contiene anotaciones densas de contacto a nivel de vértice, emparejadas con imágenes RGB que incluyen interacciones complejas humano-objeto y humano-escena. En segundo lugar, entrenamos DECO, un novedoso detector de contacto 3D que utiliza atención tanto basada en partes del cuerpo como en el contexto de la escena para estimar el contacto a nivel de vértice en el cuerpo SMPL. DECO se basa en la idea de que los observadores humanos reconocen el contacto razonando sobre las partes del cuerpo que entran en contacto, su proximidad a los objetos de la escena y el contexto circundante. Realizamos evaluaciones exhaustivas de nuestro detector en DAMON, así como en los conjuntos de datos RICH y BEHAVE. Superamos significativamente a los métodos SOTA existentes en todos los benchmarks. También mostramos cualitativamente que DECO generaliza bien a diversas y desafiantes interacciones humanas del mundo real en imágenes naturales. El código, los datos y los modelos están disponibles en https://deco.is.tue.mpg.de.
Recientemente, ha surgido una oleada de estudios que afirman la existencia de habilidades cognitivas emergentes en los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Sin embargo, la mayoría se basa en anécdotas, pasa por alto la contaminación de los conjuntos de entrenamiento o carece de una evaluación sistemática que incluya múltiples tareas, condiciones de control, iteraciones repetidas y pruebas de robustez estadística. En este trabajo, realizamos dos contribuciones principales. Primero, proponemos CogEval, un protocolo inspirado en la ciencia cognitiva para la evaluación sistemática de capacidades cognitivas en modelos de lenguaje grandes. El protocolo CogEval puede seguirse para evaluar diversas habilidades. Segundo, aquí aplicamos CogEval para evaluar sistemáticamente mapas cognitivos y la capacidad de planificación en ocho LLMs (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B y Alpaca-7B). Basamos nuestros indicadores de tareas en experimentos humanos, que ofrecen una validez de constructo establecida para evaluar la planificación y que están ausentes en los conjuntos de entrenamiento de los LLMs. Encontramos que, aunque los LLMs muestran una aparente competencia en algunas tareas de planificación con estructuras más simples, la evaluación sistemática revela modos de fallo sorprendentes en tareas de planificación, incluyendo alucinaciones de trayectorias inválidas y quedarse atrapados en bucles. Estos hallazgos no respaldan la idea de una capacidad de planificación emergente inmediata en los LLMs. Esto podría deberse a que los LLMs no comprenden las estructuras relacionales subyacentes a los problemas de planificación, conocidas como mapas cognitivos, y fallan al desplegar trayectorias dirigidas a objetivos basadas en la estructura subyacente. Se discuten las implicaciones para aplicaciones y futuras direcciones.
El ajuste de indicaciones textuales ha demostrado mejoras significativas en el rendimiento al adaptar modelos de procesamiento de lenguaje natural a una variedad de tareas posteriores, tratando las indicaciones diseñadas manualmente como parámetros entrenables. Inspirados por el éxito de las indicaciones textuales, varios estudios han investigado la eficacia del ajuste de indicaciones visuales. En este trabajo, presentamos Adaptación de Indicaciones Visuales (VPA, por sus siglas en inglés), el primer marco que generaliza las indicaciones visuales con adaptación en tiempo de prueba. VPA introduce un pequeño número de tokens entrenables, permitiendo una adaptación completamente en tiempo de prueba y eficiente en almacenamiento, sin necesidad de información del dominio de origen. Examinamos nuestro diseño de VPA bajo diversos escenarios de adaptación, incluyendo adaptación de imagen única, imágenes en lote y adaptación con pseudoetiquetas. Evaluamos VPA en múltiples tareas, como generalización fuera de distribución (OOD), robustez frente a corrupciones y adaptación de dominio. Los resultados experimentales revelan que VPA mejora efectivamente la generalización OOD en un 3.3% en varios modelos, superando enfoques previos de tiempo de prueba. Además, mostramos que VPA mejora la robustez frente a corrupciones en un 6.5% en comparación con líneas base sólidas. Finalmente, demostramos que VPA también aumenta el rendimiento en adaptación de dominio en un 5.2% relativo. Nuestro VPA también exhibe una marcada efectividad al mejorar la robustez del reconocimiento de cero disparos para modelos de visión y lenguaje.