Artículos de investigación en IA seleccionados diariamente con traducciones
Amphion es un kit de herramientas para la generación de audio, música y voz. Su propósito es apoyar la investigación reproducible y ayudar a investigadores e ingenieros principiantes a iniciarse en el campo de la investigación y desarrollo de generación de audio, música y voz. Amphion ofrece una característica única: visualizaciones de modelos o arquitecturas clásicas. Creemos que estas visualizaciones son beneficiosas para investigadores e ingenieros principiantes que desean comprender mejor el modelo. El objetivo principal de Amphion es ofrecer una plataforma para estudiar la conversión de cualquier entrada en audio general. Amphion está diseñado para apoyar tareas de generación individuales. Además de las tareas específicas de generación, Amphion también incluye varios vocoders y métricas de evaluación. Un vocoder es un módulo importante para producir señales de audio de alta calidad, mientras que las métricas de evaluación son cruciales para garantizar consistencia en las tareas de generación. En este artículo, proporcionamos una visión general de alto nivel de Amphion.
Responder a preguntas complejas en lenguaje natural a menudo requiere un razonamiento de múltiples pasos y la integración de información externa. Varios sistemas han combinado la recuperación de conocimiento con un modelo de lenguaje grande (LLM, por sus siglas en inglés) para responder a este tipo de preguntas. Sin embargo, estos sistemas presentan diversos casos de fallo, y no podemos entrenarlos directamente de extremo a extremo para corregir dichos fallos, ya que la interacción con el conocimiento externo no es diferenciable. Para abordar estas deficiencias, definimos un agente LLM de estilo ReAct con la capacidad de razonar y actuar sobre el conocimiento externo. Además, refinamos el agente mediante un método similar a ReST que entrena iterativamente sobre trayectorias previas, empleando aprendizaje por refuerzo de lote creciente con retroalimentación de IA para la mejora continua y la auto-distilación. Partiendo de un modelo grande con indicaciones y después de solo dos iteraciones del algoritmo, podemos producir un modelo pequeño ajustado que logra un rendimiento comparable en benchmarks desafiantes de respuesta a preguntas composicionales, utilizando dos órdenes de magnitud menos de parámetros.
Los modelos de difusión han demostrado un éxito notable en una variedad de tareas generativas posteriores, pero aún están poco explorados en la importante y desafiante generación expresiva de cabezas parlantes. En este trabajo, proponemos un marco llamado DreamTalk para abordar esta brecha, el cual emplea un diseño meticuloso para desbloquear el potencial de los modelos de difusión en la generación de cabezas parlantes expresivas. Específicamente, DreamTalk consta de tres componentes cruciales: una red de eliminación de ruido, un experto labial consciente del estilo y un predictor de estilo. La red de eliminación de ruido basada en difusión es capaz de sintetizar de manera consistente movimientos faciales de alta calidad impulsados por audio en diversas expresiones. Para mejorar la expresividad y precisión de los movimientos labiales, introducimos un experto labial consciente del estilo que puede guiar la sincronización labial mientras tiene en cuenta los estilos de habla. Para eliminar la necesidad de un video o texto de referencia de expresión, se utiliza un predictor de estilo adicional basado en difusión para predecir la expresión objetivo directamente desde el audio. De esta manera, DreamTalk puede aprovechar los potentes modelos de difusión para generar rostros expresivos de manera efectiva y reducir la dependencia de referencias de estilo costosas. Los resultados experimentales demuestran que DreamTalk es capaz de generar rostros parlantes fotorrealistas con diversos estilos de habla y lograr movimientos labiales precisos, superando a las contrapartes existentes de última generación.
El modelo Segment Anything (SAM) aborda dos tareas de segmentación prácticas pero desafiantes: Segment Anything (SegAny), que utiliza un punto específico para predecir la máscara de un único objeto de interés, y Segment Everything (SegEvery), que predice las máscaras de todos los objetos en la imagen. Lo que hace que SegAny sea lento en SAM es su codificador de imágenes de gran tamaño, un problema que MobileSAM ha resuelto mediante la destilación de conocimiento desacoplada. Sin embargo, el cuello de botella en la eficiencia de SegEvery con SAM radica en su decodificador de máscaras, ya que primero necesita generar numerosas máscaras con indicaciones redundantes de búsqueda en cuadrícula y luego realizar un filtrado para obtener las máscaras válidas finales. Proponemos mejorar su eficiencia generando directamente las máscaras finales con solo indicaciones válidas, las cuales pueden obtenerse mediante el descubrimiento de objetos. Nuestro enfoque no solo ayuda a reducir el tiempo total en el decodificador de máscaras al menos 16 veces, sino que también logra un rendimiento superior. Específicamente, nuestro enfoque produce un aumento promedio en el rendimiento del 3.6% (42.5% frente a 38.9%) para la propuesta de objetos zero-shot en el conjunto de datos LVIS con la métrica AR@K de máscaras. Los resultados cualitativos muestran que nuestro enfoque genera máscaras de grano fino mientras evita la sobresegmentación. Este proyecto, que apunta a un SegEvery más rápido que el SAM original, se denomina MobileSAMv2 para diferenciarlo de MobileSAM, que se enfoca en un SegAny más rápido. Además, demostramos que nuestro nuevo muestreo de indicaciones también es compatible con los codificadores de imágenes destilados en MobileSAM, contribuyendo a un marco unificado para un SegAny y SegEvery eficientes. El código está disponible en el mismo enlace que el proyecto MobileSAM: https://github.com/ChaoningZhang/MobileSAM.
Este artículo no tiene como objetivo buscar innovaciones dentro del mecanismo de atención. En su lugar, se centra en superar los compromisos existentes entre precisión y eficiencia en el contexto del procesamiento de nubes de puntos, aprovechando el poder de la escala. Inspirándonos en los avances recientes en el aprendizaje de representaciones a gran escala en 3D, reconocemos que el rendimiento del modelo está más influenciado por la escala que por diseños intrincados. Por lo tanto, presentamos Point Transformer V3 (PTv3), que prioriza la simplicidad y la eficiencia sobre la precisión de ciertos mecanismos que son menores para el rendimiento general después del escalado, como reemplazar la búsqueda precisa de vecinos mediante KNN con un mapeo eficiente de vecinos serializado de nubes de puntos organizadas con patrones específicos. Este principio permite un escalado significativo, expandiendo el campo receptivo de 16 a 1024 puntos mientras se mantiene eficiente (un aumento de 3x en la velocidad de procesamiento y una mejora de 10x en la eficiencia de memoria en comparación con su predecesor, PTv2). PTv3 alcanza resultados de vanguardia en más de 20 tareas posteriores que abarcan escenarios tanto interiores como exteriores. Además, potenciado con entrenamiento conjunto en múltiples conjuntos de datos, PTv3 lleva estos resultados a un nivel superior.
Uno de los componentes clave dentro de los modelos de difusión es la UNet para la predicción de ruido. Si bien varios trabajos han explorado las propiedades básicas del decodificador de la UNet, su codificador ha sido en gran medida poco estudiado. En este trabajo, realizamos el primer estudio exhaustivo del codificador de la UNet. Analizamos empíricamente las características del codificador y proporcionamos insights sobre preguntas importantes relacionadas con sus cambios durante el proceso de inferencia. En particular, encontramos que las características del codificador cambian suavemente, mientras que las características del decodificador muestran variaciones sustanciales en diferentes pasos de tiempo. Este hallazgo nos inspiró a omitir el codificador en ciertos pasos de tiempo adyacentes y reutilizar cíclicamente las características del codificador de los pasos de tiempo anteriores para el decodificador. Basándonos en esta observación, introducimos un esquema de propagación del codificador simple pero efectivo para acelerar el muestreo de difusión en un conjunto diverso de tareas. Al beneficiarnos de nuestro esquema de propagación, podemos ejecutar en paralelo el decodificador en ciertos pasos de tiempo adyacentes. Además, introducimos un método de inyección de ruido previo para mejorar los detalles de textura en la imagen generada. Además de la tarea estándar de texto a imagen, también validamos nuestro enfoque en otras tareas: texto a video, generación personalizada y generación guiada por referencia. Sin utilizar ninguna técnica de destilación de conocimiento, nuestro enfoque acelera el muestreo de los modelos Stable Diffusion (SD) y DeepFloyd-IF en un 41% y 24% respectivamente, manteniendo un rendimiento de generación de alta calidad. Nuestro código está disponible en https://github.com/hutaiHang/Faster-Diffusion{FasterDiffusion}.
Los modelos de lenguaje de gran escala (LLMs) basados en Transformers suelen imponer limitaciones en la longitud del texto de entrada para garantizar la generación de respuestas fluidas y relevantes. Esta restricción limita su aplicabilidad en escenarios que involucran textos extensos. Proponemos un novedoso método de compresión semántica que permite generalizar a textos 6-8 veces más largos, sin incurrir en costos computacionales significativos ni requerir ajustes finos. Nuestro marco propuesto se inspira en la codificación de fuentes de la teoría de la información y emplea un modelo preentrenado para reducir la redundancia semántica de entradas largas antes de pasarlas a los LLMs para tareas posteriores. Los resultados experimentales demuestran que nuestro método extiende efectivamente la ventana de contexto de los LLMs en una variedad de tareas, incluyendo respuesta a preguntas, resumen, aprendizaje con pocos ejemplos y recuperación de información. Además, el método de compresión semántica propuesto muestra una fluidez consistente en la generación de texto mientras reduce la sobrecarga computacional asociada.
Demostramos que los métodos no supervisados existentes sobre las activaciones de modelos de lenguaje grandes (LLM) no descubren conocimiento, sino que parecen descubrir cualquier característica de las activaciones que sea más prominente. La idea detrás de la elicitación de conocimiento no supervisada es que el conocimiento satisface una estructura de consistencia, la cual puede utilizarse para descubrir conocimiento. Primero demostramos teóricamente que características arbitrarias (no solo el conocimiento) satisfacen la estructura de consistencia de un método líder de elicitación de conocimiento no supervisado, la búsqueda consistente por contraste (Burns et al. - arXiv:2212.03827). Luego presentamos una serie de experimentos que muestran escenarios en los que los métodos no supervisados resultan en clasificadores que no predicen conocimiento, sino que predicen una característica prominente diferente. Concluimos que los métodos no supervisados existentes para descubrir conocimiento latente son insuficientes, y contribuimos con verificaciones de cordura para aplicar en la evaluación de futuros métodos de elicitación de conocimiento. Conceptualizamos que los problemas de identificación explorados aquí, por ejemplo, distinguir el conocimiento de un modelo del de un personaje simulado, persistirán en futuros métodos no supervisados.
El Muestreo por Destilación de Puntuaciones (SDS, por sus siglas en inglés) ha demostrado un rendimiento notable en la generación condicional de contenido 3D. Sin embargo, aún falta una comprensión integral de la formulación de SDS, lo que dificulta el avance en la generación 3D. En este trabajo, presentamos una interpretación de SDS como una combinación de tres componentes funcionales: términos de desvinculación de modos, búsqueda de modos y reducción de varianza, y analizamos las propiedades de cada uno. Mostramos que problemas como la suavización excesiva y la saturación de colores resultan de deficiencias intrínsecas en los términos de supervisión y revelamos que el término de reducción de varianza introducido por SDS es subóptimo. Además, arrojamos luz sobre la adopción de una escala grande de Guía Libre de Clasificador (CFG, por sus siglas en inglés) para la generación 3D. Basándonos en este análisis, proponemos un enfoque simple pero efectivo llamado Destilación de Puntuaciones Estable (SSD, por sus siglas en inglés), que orquesta estratégicamente cada término para lograr una generación 3D de alta calidad. Experimentos exhaustivos validan la eficacia de nuestro enfoque, demostrando su capacidad para generar contenido 3D de alta fidelidad sin sucumbir a problemas como la suavización excesiva o la sobresaturación, incluso en condiciones de CFG baja y utilizando la representación NeRF más desafiante.
Neural Radiance Field (NeRF) y sus variantes han surgido recientemente como métodos exitosos para la síntesis de nuevas vistas y la reconstrucción de escenas 3D. Sin embargo, la mayoría de los modelos NeRF actuales logran alta precisión utilizando tamaños de modelo grandes, o alcanzan alta eficiencia de memoria sacrificando precisión. Esto limita el alcance aplicable de cualquier modelo individual, ya que los modelos de alta precisión podrían no caber en dispositivos con poca memoria, y los modelos eficientes en memoria podrían no satisfacer los requisitos de alta calidad. Con este fin, presentamos SlimmeRF, un modelo que permite realizar ajustes instantáneos en tiempo de prueba entre el tamaño del modelo y la precisión mediante el adelgazamiento, lo que hace que el modelo sea simultáneamente adecuado para escenarios con diferentes presupuestos de computación. Logramos esto a través de un nuevo algoritmo propuesto llamado Incrementación de Rango Tensorial (TRaIn), que aumenta gradualmente el rango de la representación tensorial del modelo durante el entrenamiento. También observamos que nuestro modelo permite ajustes más efectivos en escenarios de vistas escasas, logrando en ocasiones incluso mayor precisión después de ser adelgazado. Atribuimos esto al hecho de que información errónea, como artefactos flotantes, tiende a almacenarse en componentes correspondientes a rangos más altos. Nuestra implementación está disponible en https://github.com/Shiran-Yuan/SlimmeRF.
Los conjuntos de datos conversacionales de alta calidad son esenciales para desarrollar modelos de IA que puedan comunicarse con los usuarios. Una forma de fomentar interacciones más profundas entre un chatbot y su usuario es a través de las personas, aspectos del carácter del usuario que proporcionan información sobre su personalidad, motivaciones y comportamientos. Entrenar modelos de Procesamiento del Lenguaje Natural (NLP) en un conjunto de datos diverso y completo basado en personas puede llevar a modelos conversacionales que creen una conexión más profunda con el usuario y mantengan su interés. En este artículo, aprovechamos el poder de los Modelos de Lenguaje de Gran Escala (LLMs) para crear un conjunto de datos conversacionales grande y de alta calidad a partir de un conjunto de datos inicial. Proponemos un marco de arquitectura Generador-Crítico para expandir el conjunto de datos inicial, mejorando la calidad de sus conversaciones. El Generador es un LLM que genera conversaciones. El Crítico consiste en una mezcla de LLMs expertos que controlan la calidad de las conversaciones generadas. Estos expertos seleccionan las mejores conversaciones generadas, que luego utilizamos para mejorar el Generador. Publicamos Synthetic-Persona-Chat, que consta de 20k conversaciones generadas a partir de Persona-Chat. Evaluamos la calidad de Synthetic-Persona-Chat y nuestro marco de generación en diferentes dimensiones a través de extensos experimentos, y observamos que la tasa de pérdida de Synthetic-Persona-Chat frente a Persona-Chat durante la prueba de Turing disminuye del 17.2% al 8.8% en tres iteraciones.
El objetivo de esta serie es documentar las opiniones y los temas relevantes en el campo del aprendizaje automático tal como se presentan hoy y cómo evolucionan con el tiempo. El plan es realizar esta encuesta periódicamente hasta el apocalipsis impulsado por la singularidad de la IA y la obsesión por los clips, manteniendo una lista actualizada de preguntas de actualidad y entrevistando a nuevos miembros de la comunidad en cada edición. En este número, exploramos las opiniones de las personas sobre la IA interpretable, el valor de los puntos de referencia en el procesamiento del lenguaje natural moderno, el estado del progreso hacia la comprensión del aprendizaje profundo y el futuro de la academia.