Artículos de investigación en IA seleccionados diariamente con traducciones
Las Redes Neuronales Convolucionales (CNNs) y los Transformers de Visión (ViTs) se posicionan como los dos modelos base más populares para el aprendizaje de representaciones visuales. Mientras que las CNNs exhiben una escalabilidad notable con complejidad lineal respecto a la resolución de la imagen, los ViTs las superan en capacidad de ajuste a pesar de lidiar con una complejidad cuadrática. Un análisis más detallado revela que los ViTs logran un rendimiento superior en modelado visual mediante la incorporación de campos receptivos globales y pesos dinámicos. Esta observación nos motiva a proponer una nueva arquitectura que herede estos componentes mientras mejora la eficiencia computacional. Para ello, nos inspiramos en el recientemente introducido modelo de espacio de estados y proponemos el Modelo de Espacio de Estados Visual (VMamba), que alcanza complejidad lineal sin sacrificar los campos receptivos globales. Para abordar el problema de sensibilidad direccional encontrado, introducimos el Módulo de Escaneo Cruzado (CSM) para recorrer el dominio espacial y convertir cualquier imagen visual no causal en secuencias de parches ordenados. Extensos resultados experimentales corroboran que VMamba no solo demuestra capacidades prometedoras en diversas tareas de percepción visual, sino que también exhibe ventajas más pronunciadas sobre los puntos de referencia establecidos a medida que aumenta la resolución de la imagen. El código fuente está disponible en https://github.com/MzeroMiko/VMamba.
Los modelos de difusión han abierto nuevos caminos en el campo de la generación de imágenes, lo que ha resultado en la proliferación de modelos de alta calidad compartidos en plataformas de código abierto. Sin embargo, un desafío importante persiste en los sistemas actuales de texto a imagen, que a menudo no pueden manejar entradas diversas o se limitan a resultados de un solo modelo. Los intentos actuales de unificación suelen caer en dos aspectos ortogonales: i) analizar *Diverse Prompts* en la etapa de entrada; ii) activar un modelo experto para la salida. Para combinar lo mejor de ambos enfoques, proponemos DiffusionGPT, que aprovecha los Modelos de Lenguaje de Gran Escala (LLM) para ofrecer un sistema de generación unificado capaz de acomodar sin problemas diversos tipos de indicaciones e integrar modelos expertos en dominios específicos. DiffusionGPT construye Árboles específicos de dominio para varios modelos generativos basados en conocimiento previo. Al recibir una entrada, el LLM analiza la indicación y emplea los Árboles de Pensamiento para guiar la selección de un modelo apropiado, relajando así las restricciones de entrada y asegurando un rendimiento excepcional en diversos dominios. Además, introducimos Bases de Datos de Ventaja, donde el Árbol de Pensamiento se enriquece con retroalimentación humana, alineando el proceso de selección de modelos con las preferencias humanas. A través de extensos experimentos y comparaciones, demostramos la efectividad de DiffusionGPT, destacando su potencial para impulsar los límites de la síntesis de imágenes en diversos dominios.
Presentamos SPARse Fine-grained Contrastive Alignment (SPARC), un método sencillo para el preentrenamiento de representaciones multimodales más detalladas a partir de pares imagen-texto. Dado que múltiples parches de imagen suelen corresponder a palabras individuales, proponemos aprender una agrupación de parches de imagen para cada token en el texto descriptivo. Para lograrlo, utilizamos una métrica de similitud dispersa entre parches de imagen y tokens de lenguaje, y calculamos para cada token una incrustación visual agrupada por lenguaje como el promedio ponderado de los parches. Luego, contrastamos los tokens y las incrustaciones visuales agrupadas por lenguaje mediante una pérdida secuencial detallada que solo depende de muestras individuales y no requiere otras muestras del lote como negativos. Esto permite aprender información más detallada de manera computacionalmente eficiente. SPARC combina esta pérdida detallada con una pérdida contrastiva entre incrustaciones globales de imagen y texto para aprender representaciones que codifican simultáneamente información global y local. Evaluamos exhaustivamente nuestro método propuesto y demostramos un rendimiento mejorado frente a enfoques competidores tanto en tareas a nivel de imagen que dependen de información de grano grueso, como la clasificación, como en tareas a nivel de región que dependen de información de grano fino, como la recuperación, detección de objetos y segmentación. Además, SPARC mejora la fidelidad del modelo y la generación de descripciones en modelos fundamentales de visión y lenguaje.
Como ocurre con muchos problemas de aprendizaje automático, el progreso de los métodos de generación de imágenes depende de buenas métricas de evaluación. Una de las más populares es la Distancia de Fréchet Inception (FID). FID estima la distancia entre una distribución de características de Inception-v3 de imágenes reales y las de imágenes generadas por el algoritmo. Destacamos importantes limitaciones de FID: la pobre representación de Inception del contenido rico y variado generado por los modelos modernos de texto a imagen, las suposiciones incorrectas de normalidad y la pobre complejidad muestral. Hacemos un llamado a reevaluar el uso de FID como la métrica principal de calidad para imágenes generadas. Demostramos empíricamente que FID contradice a los evaluadores humanos, no refleja la mejora gradual de los modelos iterativos de texto a imagen, no captura los niveles de distorsión y produce resultados inconsistentes al variar el tamaño de la muestra. También proponemos una nueva métrica alternativa, CMMD, basada en embeddings más ricos de CLIP y la distancia de discrepancia máxima de media con el kernel RBF gaussiano. Es un estimador insesgado que no hace suposiciones sobre la distribución de probabilidad de los embeddings y es eficiente en muestras. A través de extensos experimentos y análisis, demostramos que las evaluaciones basadas en FID de modelos de texto a imagen pueden ser poco confiables, y que CMMD ofrece una evaluación más robusta y fiable de la calidad de las imágenes.
Presentamos SHINOBI, un marco integral para la reconstrucción de forma, material e iluminación a partir de imágenes de objetos capturadas con variaciones en la iluminación, pose y fondo. La representación inversa de un objeto basada en colecciones de imágenes no restringidas es un desafío de larga data en visión por computadora y gráficos, y requiere una optimización conjunta de la forma, la radiancia y la pose. Demostramos que una representación implícita de la forma basada en una codificación hash de múltiples resoluciones permite una reconstrucción de forma más rápida y robusta con una optimización conjunta de alineación de cámara que supera trabajos previos. Además, para habilitar la edición de la iluminación y la reflectancia del objeto (es decir, el material), optimizamos conjuntamente el BRDF y la iluminación junto con la forma del objeto. Nuestro método es independiente de la clase y funciona con colecciones de imágenes de objetos en entornos no controlados para producir activos 3D relumbrantes para varios casos de uso, como AR/VR, películas, videojuegos, etc. Página del proyecto: https://shinobi.aengelhardt.com Video: https://www.youtube.com/watch?v=iFENQ6AcYd8&feature=youtu.be
El objetivo de este artículo es generar audio realista con un vocoder ligero y rápido basado en difusión, denominado FreGrad. Nuestro marco de trabajo consta de los siguientes tres componentes clave: (1) Empleamos la transformada discreta de wavelet, que descompone una forma de onda compleja en sub-bandas de wavelets, lo que permite a FreGrad operar en un espacio de características simple y conciso, (2) Diseñamos una convolución dilatada consciente de la frecuencia que mejora la percepción de frecuencias, lo que resulta en la generación de habla con información de frecuencia precisa, y (3) Introducimos un conjunto de técnicas que mejoran la calidad de generación del modelo propuesto. En nuestros experimentos, FreGrad logra un tiempo de entrenamiento 3.7 veces más rápido y una velocidad de inferencia 2.2 veces mayor en comparación con nuestra línea base, mientras reduce el tamaño del modelo en 0.6 veces (solo 1.78M parámetros) sin sacrificar la calidad de la salida. Las muestras de audio están disponibles en: https://mm.kaist.ac.kr/projects/FreGrad.
La generación personalizada de texto a video tiene como objetivo crear videos de alta calidad guiados por indicaciones de texto y referencias de sujetos. Los enfoques actuales diseñados para un solo sujeto tienen dificultades para manejar múltiples sujetos, lo cual representa un escenario más desafiante y práctico. En este trabajo, buscamos promover la personalización de texto a video guiada por múltiples sujetos. Proponemos CustomVideo, un marco novedoso que puede generar videos que preservan la identidad con la guía de múltiples sujetos. Específicamente, en primer lugar, fomentamos la coexistencia de múltiples sujetos mediante su composición en una sola imagen. Además, sobre un modelo básico de difusión de texto a video, diseñamos una estrategia de control de atención simple pero efectiva para separar diferentes sujetos en el espacio latente del modelo de difusión. Asimismo, para ayudar al modelo a enfocarse en el área específica del objeto, segmentamos el objeto a partir de imágenes de referencia proporcionadas y ofrecemos una máscara de objeto correspondiente para el aprendizaje de atención. También recopilamos un conjunto de datos de generación de texto a video con múltiples sujetos como un punto de referencia integral, con 69 sujetos individuales y 57 pares significativos. Los resultados extensos de estudios cualitativos, cuantitativos y con usuarios demuestran la superioridad de nuestro método en comparación con los enfoques más avanzados anteriores.