Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos probabilísticos de difusión para eliminación de ruido (DDPMs, por sus siglas en inglés) han demostrado un rendimiento prometedor en la síntesis de voz. Sin embargo, se requiere un gran número de pasos iterativos para lograr una calidad de muestreo alta, lo que limita la velocidad de inferencia. Mantener la calidad de las muestras mientras se aumenta la velocidad de muestreo se ha convertido en una tarea desafiante. En este artículo, proponemos un método de síntesis de voz basado en un "Mo"delo de "Co"nsistencia, denominado CoMoSpeech, que realiza la síntesis de voz en un solo paso de muestreo de difusión mientras logra una alta calidad de audio. La restricción de consistencia se aplica para destilar un modelo de consistencia a partir de un modelo maestro basado en difusión bien diseñado, lo que finalmente produce un rendimiento superior en el CoMoSpeech destilado. Nuestros experimentos muestran que, al generar grabaciones de audio en un solo paso de muestreo, el CoMoSpeech alcanza una velocidad de inferencia más de 150 veces más rápida que el tiempo real en una sola GPU NVIDIA A100, lo que es comparable a FastSpeech2, haciendo que la síntesis de voz basada en muestreo de difusión sea verdaderamente práctica. Mientras tanto, las evaluaciones objetivas y subjetivas en la síntesis de texto a voz y voz cantada muestran que los modelos maestros propuestos producen la mejor calidad de audio, y el CoMoSpeech basado en muestreo de un solo paso logra la mejor velocidad de inferencia con una calidad de audio igual o superior a otros modelos de difusión convencionales de múltiples pasos. Las muestras de audio están disponibles en https://comospeech.github.io/.
Presentamos los Transformers de Visión con Conciencia de Región y Vocabulario Abierto (RO-ViT), una receta de preentrenamiento contrastivo imagen-texto para cerrar la brecha entre el preentrenamiento a nivel de imagen y la detección de objetos con vocabulario abierto. En la fase de preentrenamiento, proponemos recortar y redimensionar aleatoriamente regiones de los embeddings posicionales en lugar de utilizar los embeddings posicionales de la imagen completa. Esto se ajusta mejor al uso de embeddings posicionales a nivel de región en la fase de ajuste fino para detección. Además, reemplazamos la pérdida de entropía cruzada softmax común en el aprendizaje contrastivo con la pérdida focal para aprender mejor los ejemplos informativos pero difíciles. Finalmente, aprovechamos los avances recientes en propuestas de objetos novedosos para mejorar el ajuste fino en detección con vocabulario abierto. Evaluamos nuestro modelo completo en los benchmarks de detección con vocabulario abierto LVIS y COCO, así como en transferencia zero-shot. RO-ViT alcanza un estado del arte de 32.1 AP_r en LVIS, superando al mejor enfoque existente en +5.8 puntos, además de obtener una detección competitiva en transferencia zero-shot. Sorprendentemente, RO-ViT también mejora la representación a nivel de imagen y logra el estado del arte en 9 de 12 métricas en los benchmarks de recuperación imagen-texto de COCO y Flickr, superando enfoques competitivos con modelos más grandes.
Los modelos de lenguaje de propósito general capaces de resolver diversas tareas en el dominio del lenguaje han surgido impulsados por el enfoque de preentrenamiento y ajuste por instrucciones. Sin embargo, construir modelos de visión-lenguaje de propósito general es un desafío debido a la mayor discrepancia de tareas introducida por la entrada visual adicional. Aunque el preentrenamiento de visión-lenguaje ha sido ampliamente estudiado, el ajuste por instrucciones en visión-lenguaje sigue siendo relativamente menos explorado. En este artículo, realizamos un estudio sistemático y exhaustivo sobre el ajuste por instrucciones en visión-lenguaje basado en los modelos preentrenados BLIP-2. Reunimos una amplia variedad de 26 conjuntos de datos disponibles públicamente, los transformamos al formato de ajuste por instrucciones y los categorizamos en dos grupos para el ajuste por instrucciones con datos retenidos y la evaluación en modo cero-shot con datos excluidos. Además, introducimos la extracción de características visuales consciente de las instrucciones, un método crucial que permite al modelo extraer características informativas adaptadas a la instrucción dada. Los modelos resultantes, InstructBLIP, logran un rendimiento de vanguardia en modo cero-shot en los 13 conjuntos de datos excluidos, superando sustancialmente a BLIP-2 y al modelo más grande Flamingo. Nuestros modelos también alcanzan un rendimiento de vanguardia cuando se ajustan en tareas individuales posteriores (por ejemplo, 90.7% de precisión en ScienceQA IMG). Además, demostramos cualitativamente las ventajas de InstructBLIP sobre modelos multimodales concurrentes. Todos los modelos InstructBLIP han sido liberados como código abierto en https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.
Presentamos un enfoque novedoso para aprovechar el conocimiento previo encapsulado en modelos de difusión de texto a imagen preentrenados para la super-resolución ciega (SR). Específicamente, al emplear nuestro codificador consciente del tiempo, podemos lograr resultados de restauración prometedores sin alterar el modelo de síntesis preentrenado, preservando así el prior generativo y minimizando el costo de entrenamiento. Para remediar la pérdida de fidelidad causada por la estocasticidad inherente de los modelos de difusión, introducimos un módulo de envoltura de características controlable que permite a los usuarios equilibrar calidad y fidelidad simplemente ajustando un valor escalar durante el proceso de inferencia. Además, desarrollamos una estrategia de muestreo de agregación progresiva para superar las limitaciones de tamaño fijo de los modelos de difusión preentrenados, permitiendo la adaptación a resoluciones de cualquier tamaño. Una evaluación exhaustiva de nuestro método utilizando tanto benchmarks sintéticos como del mundo real demuestra su superioridad sobre los enfoques actuales más avanzados.
Los transformadores de visión han demostrado un gran éxito debido a sus altas capacidades de modelo. Sin embargo, su notable rendimiento viene acompañado de elevados costos computacionales, lo que los hace inadecuados para aplicaciones en tiempo real. En este artículo, proponemos una familia de transformadores de visión de alta velocidad denominada EfficientViT. Descubrimos que la velocidad de los modelos de transformadores existentes está comúnmente limitada por operaciones ineficientes en memoria, especialmente las funciones de remodelación de tensores y las operaciones elemento a elemento en MHSA. Por lo tanto, diseñamos un nuevo bloque de construcción con un diseño en sándwich, es decir, utilizando un único MHSA limitado por memoria entre capas FFN eficientes, lo que mejora la eficiencia de memoria mientras refuerza la comunicación entre canales. Además, descubrimos que los mapas de atención comparten una alta similitud entre cabezas, lo que genera redundancia computacional. Para abordar esto, presentamos un módulo de atención en grupo en cascada que alimenta las cabezas de atención con diferentes divisiones de la característica completa, lo que no solo reduce el costo computacional sino que también mejora la diversidad de la atención. Experimentos exhaustivos demuestran que EfficientViT supera a los modelos eficientes existentes, logrando un buen equilibrio entre velocidad y precisión. Por ejemplo, nuestro EfficientViT-M5 supera a MobileNetV3-Large en un 1.9% en precisión, mientras que obtiene un 40.4% y un 45.2% más de rendimiento en la GPU Nvidia V100 y la CPU Intel Xeon, respectivamente. En comparación con el reciente modelo eficiente MobileViT-XXS, EfficientViT-M2 logra una precisión superior en un 1.8%, mientras que funciona 5.8x/3.7x más rápido en la GPU/CPU, y 7.4x más rápido cuando se convierte al formato ONNX. El código y los modelos están disponibles en https://github.com/microsoft/Cream/tree/main/EfficientViT.
CLIP, el primer modelo fundacional que conecta imágenes y texto, ha permitido muchos avances recientes en visión por computadora. Sin embargo, su costo de entrenamiento asociado es prohibitivamente alto, lo que impone una barrera significativa para su exploración generalizada. En este artículo, presentamos un hallazgo sorprendente: existe una ley de escala inversa para el entrenamiento de CLIP, donde cuanto más grandes son los codificadores de imagen/texto utilizados, menor es la longitud de secuencia de los tokens de imagen/texto que se pueden aplicar durante el entrenamiento. Además, demostramos que la estrategia para reducir la longitud de los tokens de imagen/texto juega un papel crucial en la calidad de esta ley de escala. Como resultado de este hallazgo, hemos logrado entrenar CLIP con éxito incluso utilizando recursos académicos. Por ejemplo, en un servidor con ocho GPUs A100, nuestros modelos CLIP alcanzan precisiones top-1 en ImageNet de 63.2% en ~2 días, 67.8% en ~3 días y 69.3% en ~4 días. Al reducir la barrera computacional asociada con CLIP, esperamos inspirar más investigación en este campo, particularmente desde el ámbito académico. Nuestro código está disponible en https://github.com/UCSC-VLAA/CLIPA.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento sorprendentemente bueno en traducción automática neuronal multilingüe (MNMT), incluso cuando se entrenan sin datos paralelos. Sin embargo, a pesar de que la cantidad de datos de entrenamiento es gigantesca, todavía tienen dificultades para traducir palabras raras, particularmente en idiomas de bajos recursos. Peor aún, generalmente no es realista recuperar demostraciones relevantes para el aprendizaje en contexto con idiomas de bajos recursos en LLMs, lo que limita el uso práctico de estos modelos para la traducción. ¿Cómo deberíamos mitigar este problema? Con este fin, presentamos un método novedoso, CoD, que aumenta los LLMs con conocimiento previo mediante cadenas de diccionarios multilingües para un subconjunto de palabras de entrada, con el fin de potenciar las habilidades de traducción de los LLMs. Experimentos extensos indican que aumentar ChatGPT con CoD produce mejoras significativas de hasta 13 puntos ChrF++ en MNMT (de 3.08 a 42.63 para traducciones del inglés al serbio escrito en alfabeto cirílico) en el conjunto completo de pruebas FLORES-200. Además, demostramos la importancia de encadenar los diccionarios multilingües, así como la superioridad de CoD frente a las demostraciones de pocos ejemplos para idiomas de bajos recursos.
La capacidad de juzgar si un pie de foto describe correctamente una imagen es una parte fundamental de la comprensión visión-lenguaje. Sin embargo, los modelos de última generación a menudo malinterpretan la corrección de detalles específicos, lo que lleva a errores en las salidas, como la alucinación de objetos en los pies de foto generados o un razonamiento composicional deficiente. En este trabajo, exploramos la Confianza a Nivel de Token, o TLC por sus siglas en inglés, como un método simple pero sorprendentemente efectivo para evaluar la corrección de los pies de foto. Específicamente, ajustamos un modelo visión-lenguaje en la tarea de generación de pies de foto, introducimos una imagen y un pie de foto propuesto al modelo, y agregamos confianzas algebraicas o aprendidas a nivel de token sobre palabras o secuencias para estimar la consistencia entre la imagen y el pie de foto. En comparación con las puntuaciones a nivel de secuencia de modelos preentrenados, TLC con medidas de confianza algebraicas logra una mejora relativa en precisión del 10% en la comprensión de verbos en SVO-Probes y supera al estado del arte anterior en puntuaciones de imagen y grupo para el razonamiento composicional en Winoground en un 37% y 9% relativo, respectivamente. Cuando hay datos de entrenamiento disponibles, un estimador de confianza aprendido proporciona un rendimiento aún mejor, reduciendo las tasas de alucinación de objetos en MS COCO Captions en un 30% relativo sobre el modelo original y estableciendo un nuevo estado del arte.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) demuestran una capacidad multilingüe impresionante, pero su rendimiento varía sustancialmente entre diferentes idiomas. En este trabajo, presentamos un método simple pero efectivo, denominado "cross-lingual-thought prompting" (XLT), para mejorar sistemáticamente la capacidad multilingüe de los LLMs. Específicamente, XLT es una plantilla de instrucción genérica que estimula habilidades de razonamiento lógico y multilingüe para mejorar el rendimiento en tareas en varios idiomas. Realizamos evaluaciones exhaustivas en 7 benchmarks típicos relacionados con tareas de razonamiento, comprensión y generación, cubriendo tanto idiomas de alta como de baja disponibilidad de recursos. Los resultados experimentales muestran que XLT no solo mejora notablemente el rendimiento en diversas tareas multilingües, sino que también reduce significativamente la brecha entre el rendimiento promedio y el mejor rendimiento de cada tarea en diferentes idiomas. Destacablemente, XLT aporta una mejora promedio de más de 10 puntos en tareas de razonamiento aritmético y de respuesta a preguntas de dominio abierto.
Generar música de alta calidad que complemente el contenido visual de un video es una tarea desafiante. La mayoría de los sistemas existentes de generación de música condicionada visualmente producen datos de música simbólica, como archivos MIDI, en lugar de formas de onda de audio crudo. Dada la disponibilidad limitada de datos de música simbólica, estos métodos solo pueden generar música para unos pocos instrumentos o para tipos específicos de entrada visual. En este artículo, proponemos un enfoque novedoso llamado V2Meow que puede generar audio musical de alta calidad que se alinea bien con la semántica visual de una amplia gama de tipos de entrada de video. Específicamente, el sistema de generación de música propuesto es un modelo autorregresivo de múltiples etapas que se entrena con un número del orden de O(100K) clips de audio musical emparejados con fotogramas de video, extraídos de videos musicales en entornos naturales, y no se involucran datos de música simbólica paralelos. V2Meow es capaz de sintetizar formas de onda de audio musical de alta fidelidad únicamente condicionadas por características visuales preentrenadas extraídas de un clip de video silencioso arbitrario, y también permite un control de alto nivel sobre el estilo musical de los ejemplos generados mediante el soporte de indicaciones de texto además del condicionamiento por fotogramas de video. A través de evaluaciones tanto cualitativas como cuantitativas, demostramos que nuestro modelo supera a varios sistemas existentes de generación de música en términos de correspondencia visual-audio y calidad de audio.
El aprendizaje continuo (LL, por sus siglas en inglés) es una habilidad importante para que los modelos de PNL aprendan nuevas tareas de manera continua. Los enfoques basados en arquitecturas han demostrado ser implementaciones efectivas para modelos de LL. Sin embargo, no es trivial extender los enfoques anteriores a escenarios de LL incremental por dominio, ya que estos requieren acceso a las identidades de las tareas en la fase de prueba o no pueden manejar muestras de tareas no vistas. En este artículo, proponemos Diana: un modelo de aprendizaje continuo basado en arquitectura dinámica que intenta aprender una secuencia de tareas con un modelo de lenguaje mejorado mediante prompts. En Diana se utilizan cuatro tipos de prompts organizados jerárquicamente para capturar conocimiento en diferentes niveles de granularidad. Específicamente, dedicamos prompts a nivel de tarea para capturar conocimiento específico de cada tarea y así mantener un alto rendimiento en LL, y mantenemos prompts a nivel de instancia para aprender el conocimiento compartido entre muestras de entrada y mejorar el rendimiento de generalización del modelo. Además, dedicamos prompts separados para modelar explícitamente tareas no vistas e introducimos un conjunto de vectores clave de prompts para facilitar el intercambio de conocimiento entre tareas. Experimentos exhaustivos demuestran que Diana supera a los modelos de LL más avanzados, especialmente en el manejo de tareas no vistas. Publicamos el código y los datos en https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/diana.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades excepcionales para generalizar a nuevas tareas en un enfoque de cero disparos (zero-shot) o pocos disparos (few-shot). Sin embargo, el grado en que los LLMs pueden comprender las preferencias del usuario basándose en su comportamiento previo sigue siendo una pregunta de investigación emergente y aún poco clara. Tradicionalmente, el Filtrado Colaborativo (CF, por sus siglas en inglés) ha sido el método más efectivo para estas tareas, dependiendo predominantemente del extenso volumen de datos de calificaciones. En contraste, los LLMs generalmente requieren considerablemente menos datos mientras mantienen un conocimiento exhaustivo del mundo sobre cada ítem, como películas o productos. En este artículo, realizamos un examen exhaustivo tanto del CF como de los LLMs dentro de la tarea clásica de predicción de calificaciones de usuarios, que implica predecir la calificación de un usuario para un ítem candidato basándose en sus calificaciones pasadas. Investigamos varios LLMs de diferentes tamaños, que van desde 250M hasta 540B parámetros, y evaluamos su rendimiento en escenarios de cero disparos, pocos disparos y ajuste fino (fine-tuning). Realizamos un análisis exhaustivo para comparar entre los LLMs y métodos fuertes de CF, y encontramos que los LLMs en cero disparos se quedan atrás en comparación con los modelos tradicionales de recomendación que tienen acceso a datos de interacción del usuario, lo que indica la importancia de los datos de interacción del usuario. Sin embargo, mediante el ajuste fino, los LLMs logran un rendimiento comparable o incluso mejor con solo una pequeña fracción de los datos de entrenamiento, demostrando su potencial a través de la eficiencia de datos.
Presentamos un controlador de humanoides basado en física que logra una imitación de movimiento de alta fidelidad y un comportamiento tolerante a fallos en presencia de entradas ruidosas (por ejemplo, estimaciones de pose a partir de video o generadas a partir de lenguaje) y caídas inesperadas. Nuestro controlador escala hasta aprender diez mil clips de movimiento sin utilizar fuerzas estabilizadoras externas y aprende a recuperarse naturalmente de estados de fallo. Dado un movimiento de referencia, nuestro controlador puede controlar avatares simulados de manera perpetua sin requerir reinicios. En su núcleo, proponemos la política de control multiplicativo progresivo (PMCP, por sus siglas en inglés), que asigna dinámicamente nueva capacidad de red para aprender secuencias de movimiento cada vez más difíciles. PMCP permite un escalado eficiente para el aprendizaje a partir de bases de datos de movimiento a gran escala y la adición de nuevas tareas, como la recuperación de estados de fallo, sin olvido catastrófico. Demostramos la efectividad de nuestro controlador utilizándolo para imitar poses ruidosas provenientes de estimadores de pose basados en video y generadores de movimiento basados en lenguaje en un caso de uso en tiempo real y en vivo con avatares multipersona.
Los grandes modelos de lenguaje como ChatGPT han demostrado recientemente capacidades impresionantes en la comprensión y generación de lenguaje natural, permitiendo diversas aplicaciones como traducción, redacción de ensayos y conversaciones informales. Sin embargo, existe la preocupación de que puedan ser mal utilizados con fines maliciosos, como fraudes o ataques de denegación de servicio. Por lo tanto, es crucial desarrollar métodos para detectar si la parte involucrada en una conversación es un bot o un humano. En este artículo, proponemos un marco denominado FLAIR (Finding Large language model Authenticity via a single Inquiry and Response) para detectar bots conversacionales de manera en línea. Específicamente, nos enfocamos en un escenario de una sola pregunta que pueda diferenciar efectivamente a los usuarios humanos de los bots. Las preguntas se dividen en dos categorías: aquellas que son fáciles para los humanos pero difíciles para los bots (por ejemplo, conteo, sustitución, posicionamiento, filtrado de ruido y arte ASCII), y aquellas que son fáciles para los bots pero difíciles para los humanos (por ejemplo, memorización y cálculo). Nuestro enfoque muestra diferentes fortalezas de estas preguntas en su efectividad, proporcionando una nueva forma para que los proveedores de servicios en línea se protejan contra actividades nefastas y aseguren que están sirviendo a usuarios reales. Hemos puesto a disposición nuestro conjunto de datos en https://github.com/hongwang600/FLAIR y damos la bienvenida a contribuciones de la comunidad para enriquecer dichos conjuntos de datos de detección.
Los embeddings de texto son características útiles para varias aplicaciones de PLN, como la similitud de oraciones, la agrupación de textos y la búsqueda semántica. En este artículo, presentamos una Adaptación de Bajo Rango con un objetivo de contraste sobre Siamese-BLOOM de 8 bits, un modelo de lenguaje grande multilingüe optimizado para producir embeddings de palabras semánticamente significativos. La innovación es triple. Primero, convertimos los pesos de BLOOM a valores de 8 bits. Segundo, ajustamos BLOOM con un adaptador escalable (LoRA) y un optimizador Adam de 8 bits para la clasificación de similitud de oraciones. Tercero, aplicamos una arquitectura Siamese en el modelo BLOOM con un objetivo de contraste para mitigar la escasez de datos etiquetados multilingües. Los resultados experimentales muestran que la calidad de los embeddings aprendidos por LACoS-BLOOM es proporcional al número de parámetros del modelo y a la cantidad de datos de entrenamiento no etiquetados. Con el diseño eficiente en parámetros para el ajuste fino, podemos ejecutar BLOOM de 7.1 mil millones de parámetros de extremo a extremo en una máquina con una sola GPU de 32GB de memoria. En comparación con la solución anterior Sentence-BERT, logramos una mejora significativa tanto en tareas STS en inglés como multilingües.