Artículos de investigación en IA seleccionados diariamente con traducciones
Si bien los modelos recientes de texto a voz (TTS) a gran escala han logrado avances significativos, aún presentan deficiencias en la calidad del habla, la similitud y la prosodia. Dado que el habla abarca intrincadamente diversos atributos (por ejemplo, contenido, prosodia, timbre y detalles acústicos) que plantean desafíos importantes para la generación, una idea natural es factorizar el habla en subespacios individuales que representen diferentes atributos y generarlos de manera individual. Motivados por esto, proponemos NaturalSpeech 3, un sistema TTS con modelos de difusión factorizados novedosos para generar habla natural de manera zero-shot. Específicamente, 1) diseñamos un códec neuronal con cuantización vectorial factorizada (FVQ) para desentrelazar la forma de onda del habla en subespacios de contenido, prosodia, timbre y detalles acústicos; 2) proponemos un modelo de difusión factorizado para generar atributos en cada subespacio siguiendo su prompt correspondiente. Con este diseño de factorización, NaturalSpeech 3 puede modelar de manera efectiva y eficiente el habla intrincada con subespacios desentrelazados en un enfoque de divide y vencerás. Los experimentos muestran que NaturalSpeech 3 supera a los sistemas TTS más avanzados en calidad, similitud, prosodia e inteligibilidad. Además, logramos un mejor rendimiento al escalar a 1B de parámetros y 200K horas de datos de entrenamiento.
Proponemos un marco novedoso para filtrar datos de imagen-texto aprovechando Modelos de Lenguaje Multimodales (MLMs) ajustados. Nuestro enfoque supera los métodos de filtrado predominantes (por ejemplo, CLIPScore) al integrar los avances recientes en MLMs. Diseñamos cuatro métricas distintas pero complementarias para medir de manera integral la calidad de los datos de imagen-texto. Se establece una nueva canalización para construir datos de instrucción de alta calidad destinados a ajustar MLMs como filtros de datos. En comparación con CLIPScore, nuestros filtros MLM producen puntuaciones más precisas y completas que mejoran directamente la calidad de los datos filtrados y potencian el rendimiento de los modelos preentrenados. Logramos mejoras significativas sobre CLIPScore en modelos base populares (es decir, CLIP y BLIP2) y diversas tareas posteriores. Nuestro filtro MLM puede generalizarse a diferentes modelos y tareas, y utilizarse como un reemplazo directo de CLIPScore. Se incluye un estudio de ablación adicional para verificar nuestras decisiones de diseño para el filtro MLM.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en la resolución de problemas. Sin embargo, su competencia para resolver problemas matemáticos sigue siendo insuficiente. Proponemos MathScale, un método simple y escalable para crear datos de razonamiento matemático de alta calidad utilizando LLMs de vanguardia (por ejemplo, {\tt GPT-3.5}). Inspirado en el mecanismo cognitivo del aprendizaje matemático humano, primero extrae temas y puntos de conocimiento de preguntas matemáticas iniciales y luego construye un gráfico de conceptos, que posteriormente se utiliza para generar nuevas preguntas matemáticas. MathScale exhibe una escalabilidad efectiva a lo largo del eje de tamaño del conjunto de datos matemáticos que generamos. Como resultado, creamos un conjunto de datos de razonamiento matemático (MathScaleQA) que contiene dos millones de pares de preguntas y respuestas matemáticas. Para evaluar de manera integral las habilidades de razonamiento matemático de los LLMs, construimos {\sc MwpBench}, un punto de referencia de Problemas de Matemáticas Verbales, que es una colección de diez conjuntos de datos (incluyendo GSM8K y MATH) que cubren problemas matemáticos de nivel K-12, universitario y de competencia. Aplicamos MathScaleQA para ajustar LLMs de código abierto (por ejemplo, LLaMA-2 y Mistral), lo que resulta en capacidades significativamente mejoradas en razonamiento matemático. Evaluado en {\sc MwpBench}, MathScale-7B logra un rendimiento de vanguardia en todos los conjuntos de datos, superando a sus mejores pares de tamaño equivalente en un 42.9\% en precisión promedio micro y un 43.7\% en precisión promedio macro, respectivamente.
Las leyes de escalamiento desempeñan un papel fundamental en la mejora sostenible de la calidad de los modelos. Lamentablemente, los modelos de recomendación hasta la fecha no exhiben tales leyes similares a las observadas en el dominio de los modelos de lenguaje grandes, debido a las ineficiencias de sus mecanismos de escalamiento. Esta limitación plantea desafíos significativos al adaptar estos modelos a conjuntos de datos del mundo real cada vez más complejos. En este artículo, proponemos una arquitectura de red efectiva basada únicamente en máquinas de factorización apiladas, y una estrategia de escalamiento sinérgica, denominada colectivamente Wukong, para establecer una ley de escalamiento en el dominio de la recomendación. El diseño único de Wukong permite capturar interacciones diversas y de cualquier orden simplemente a través de capas más altas y anchas. Realizamos evaluaciones exhaustivas en seis conjuntos de datos públicos, y nuestros resultados demuestran que Wukong supera consistentemente a los modelos más avanzados en términos de calidad. Además, evaluamos la escalabilidad de Wukong en un conjunto de datos interno a gran escala. Los resultados muestran que Wukong mantiene su superioridad en calidad sobre los modelos más avanzados, mientras mantiene la ley de escalamiento en dos órdenes de magnitud de complejidad del modelo, extendiéndose más allá de 100 Gflop o equivalentemente hasta la escala de GPT-3/LLaMa-2 en el cómputo total de entrenamiento, donde los enfoques anteriores no logran hacerlo.
El desarrollo de sistemas interactivos multimodales se ve obstaculizado por la falta de datos conversacionales ricos y multimodales (texto, imágenes), que son necesarios en grandes cantidades para los LLM (Modelos de Lenguaje de Gran Escala). Enfoques anteriores aumentan diálogos textuales con imágenes recuperadas, lo que plantea limitaciones en términos de privacidad, diversidad y calidad. En este trabajo, presentamos Multimodal Augmented Generative Images Dialogues (MAGID), un marco para enriquecer diálogos exclusivamente textuales con imágenes diversas y de alta calidad. Posteriormente, se aplica un modelo de difusión para crear imágenes correspondientes, asegurando su alineación con el texto identificado. Finalmente, MAGID incorpora un bucle de retroalimentación innovador entre un módulo de generación de descripciones de imágenes (LLM textual) y módulos de calidad de imágenes (que abordan estética, coincidencia imagen-texto y seguridad), que trabajan en conjunto para generar diálogos multimodales de alta calidad. Comparamos MAGID con otros baselines de última generación en tres conjuntos de datos de diálogos, utilizando evaluaciones automáticas y humanas. Nuestros resultados muestran que MAGID es comparable o superior a los baselines, con mejoras significativas en la evaluación humana, especialmente frente a baselines de recuperación donde la base de datos de imágenes es pequeña.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado ser muy superiores a los métodos convencionales en diversas tareas. Sin embargo, sus costosos cálculos y altos requisitos de memoria son prohibitivos para su implementación. La cuantización de modelos es un método efectivo para reducir esta sobrecarga. El problema es que, en la mayoría de los trabajos anteriores, el modelo cuantizado se calibró utilizando pocas muestras de los datos de entrenamiento, lo que podría afectar la generalización de los LLMs cuantizados en casos y tareas desconocidos. Por lo tanto, en este trabajo exploramos una pregunta importante: ¿Podemos diseñar un método de cuantización independiente de los datos para LLMs que garantice su rendimiento de generalización? En este trabajo, proponemos EasyQuant, un algoritmo de cuantización solo de pesos, independiente de los datos y sin necesidad de entrenamiento, para LLMs. Nuestra observación indica que dos factores: los valores atípicos en los pesos y los rangos de cuantización, son esenciales para reducir el error de cuantización. Por lo tanto, en EasyQuant, dejamos los valores atípicos (menos del 1%) sin cambios y optimizamos el rango de cuantización para reducir el error de reconstrucción. Con estos métodos, sorprendentemente encontramos que EasyQuant logra un rendimiento comparable al del modelo original. Dado que EasyQuant no depende de ningún dato de entrenamiento, el rendimiento de generalización de los LLMs cuantizados está garantizado de manera segura. Además, EasyQuant puede implementarse en paralelo, de modo que el modelo cuantizado se puede obtener en unos pocos minutos, incluso para LLMs de más de 100B. Hasta donde sabemos, somos el primer trabajo que logra un rendimiento de cuantización casi sin pérdidas para LLMs en un entorno independiente de los datos, y nuestro algoritmo funciona más de 10 veces más rápido que los métodos dependientes de los datos.
A pesar de los avances notables, los modelos de lenguaje multimodal de gran escala (MLLMs) existentes aún son inferiores en el reconocimiento visual granular. Contrario a trabajos previos, estudiamos este problema desde la perspectiva de la resolución de imagen y revelamos que una combinación de características visuales de baja y alta resolución puede mitigar eficazmente esta limitación. Basándonos en esta observación, proponemos un método novedoso y eficiente para MLLMs, denominado Adaptación de Mezcla de Resoluciones (MRA). En particular, MRA adopta dos rutas visuales para imágenes con diferentes resoluciones, donde la información visual de alta resolución se integra en la ruta de baja resolución mediante los nuevos adaptadores de mezcla de resoluciones (MR-Adapters). Este diseño también reduce significativamente la longitud de la secuencia de entrada de los MLLMs. Para validar MRA, lo aplicamos a un MLLM reciente llamado LLaVA, y denominamos al nuevo modelo LLaVA-HR. Realizamos experimentos exhaustivos en 11 tareas de visión y lenguaje (VL), que muestran que LLaVA-HR supera a los MLLMs existentes en 8 tareas VL, por ejemplo, +9.4% en TextVQA. Más importante aún, tanto el entrenamiento como la inferencia de LLaVA-HR siguen siendo eficientes con MRA, por ejemplo, 20 horas de entrenamiento y una velocidad de inferencia 3 veces mayor que LLaVA-1.5. Los códigos fuente se publican en: https://github.com/luogen1996/LLaVA-HR.
Desde la moderación de contenido hasta la conservación de la vida silvestre, el número de aplicaciones que requieren que los modelos reconozcan conceptos visuales matizados o subjetivos está creciendo. Tradicionalmente, el desarrollo de clasificadores para tales conceptos requiere un esfuerzo manual sustancial, medido en horas, días o incluso meses, para identificar y anotar los datos necesarios para el entrenamiento. Incluso con las técnicas de Modelado Ágil propuestas recientemente, que permiten el arranque rápido de clasificadores de imágenes, los usuarios aún deben dedicar 30 minutos o más de etiquetado de datos monótono y repetitivo solo para entrenar un único clasificador. Basándonos en la teoría del Miser Cognitivo de Fiske, proponemos un nuevo marco que alivia el esfuerzo manual al reemplazar el etiquetado humano con interacciones en lenguaje natural, reduciendo el esfuerzo total requerido para definir un concepto en un orden de magnitud: de etiquetar 2,000 imágenes a solo 100 más algunas interacciones en lenguaje natural. Nuestro marco aprovecha los avances recientes en modelos fundacionales, tanto modelos de lenguaje grande como modelos de visión-lenguaje, para delimitar el espacio conceptual a través de la conversación y etiquetar automáticamente los puntos de datos de entrenamiento. Lo más importante es que nuestro marco elimina la necesidad de anotaciones obtenidas mediante crowdsourcing. Además, nuestro marco finalmente produce modelos de clasificación livianos que son implementables en escenarios sensibles a los costos. En 15 conceptos subjetivos y en 2 conjuntos de datos públicos de clasificación de imágenes, nuestros modelos entrenados superan al Modelado Ágil tradicional, así como a los modelos de clasificación zero-shot de última generación como ALIGN, CLIP, CuPL, y a los modelos grandes de respuesta a preguntas visuales como PaLI-X.
El lenguaje natural y las imágenes se utilizan comúnmente como representaciones de objetivos en el aprendizaje por imitación condicionado por objetivos (IL). Sin embargo, el lenguaje natural puede ser ambiguo y las imágenes pueden estar sobreespecificadas. En este trabajo, proponemos los bocetos dibujados a mano como una modalidad para la especificación de objetivos en el aprendizaje por imitación visual. Los bocetos son fáciles de proporcionar por los usuarios sobre la marcha, como el lenguaje, pero, al igual que las imágenes, también pueden ayudar a una política descendente a ser espacialmente consciente e incluso ir más allá de las imágenes para desambiguar objetos relevantes para la tarea de aquellos que no lo son. Presentamos RT-Sketch, una política condicionada por objetivos para manipulación que toma como entrada un boceto dibujado a mano de la escena deseada y produce acciones como salida. Entrenamos RT-Sketch en un conjunto de datos de trayectorias emparejadas y bocetos de objetivos generados sintéticamente. Evaluamos este enfoque en seis habilidades de manipulación que involucran reordenamientos de objetos sobre una encimera articulada. Experimentalmente, encontramos que RT-Sketch es capaz de desempeñarse a un nivel similar a los agentes condicionados por imágenes o lenguaje en configuraciones directas, mientras logra una mayor robustez cuando los objetivos lingüísticos son ambiguos o hay distractores visuales presentes. Además, mostramos que RT-Sketch tiene la capacidad de interpretar y actuar sobre bocetos con diversos niveles de especificidad, que van desde dibujos lineales mínimos hasta dibujos detallados y coloreados. Para material complementario y videos, consulte nuestro sitio web: http://rt-sketch.github.io.
Los recientes avances en los campos neuronales han aportado capacidades fenomenales al campo de la generación de formas, pero carecen de propiedades cruciales, como el control incremental, un requisito fundamental para el trabajo artístico. Por otro lado, las mallas triangulares son la representación preferida para la mayoría de las tareas relacionadas con la geometría, ofreciendo eficiencia y control intuitivo, pero no se prestan fácilmente a la optimización neuronal. Para respaldar tareas posteriores, el arte previo suele proponer un enfoque de dos pasos, donde primero se genera una forma utilizando campos neuronales y luego se extrae una malla para su posterior procesamiento. En cambio, en este artículo presentamos un enfoque híbrido que mantiene consistentemente tanto una malla como una representación de Campo de Distancia con Signo (SDF, por sus siglas en inglés). Utilizando esta representación, introducimos MagicClay, una herramienta amigable para artistas que permite esculpir regiones de una malla según indicaciones textuales mientras se mantienen intactas otras regiones. Nuestro marco equilibra cuidadosa y eficientemente la consistencia entre las representaciones y las regularizaciones en cada paso de la optimización de la forma; basándonos en la representación de la malla, mostramos cómo renderizar el SDF a resoluciones más altas y de manera más rápida. Además, empleamos trabajos recientes en reconstrucción diferenciable de mallas para asignar triángulos de manera adaptativa en la malla donde sea necesario, según lo indique el SDF. Utilizando un prototipo implementado, demostramos una geometría generada superior en comparación con el estado del arte, y un control consistente novedoso, permitiendo por primera vez ediciones secuenciales basadas en indicaciones textuales sobre la misma malla.