Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Los Transformers son SSMs: Modelos Generalizados y Algoritmos Eficientes a través de la Dualidad de Espacios de Estado Estructurados
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

May 31

ByTri Dao, Albert Gu

Si bien los Transformers han sido la arquitectura principal detrás del éxito del aprendizaje profundo en el modelado del lenguaje, los modelos de espacio de estados (SSMs, por sus siglas en inglés), como Mamba, han demostrado recientemente igualar o superar a los Transformers a pequeña y mediana escala. Mostramos que estas familias de modelos están, en realidad, estrechamente relacionadas, y desarrollamos un marco teórico rico de conexiones entre los SSMs y variantes de atención, vinculados a través de diversas descomposiciones de una clase bien estudiada de matrices semiseparables estructuradas. Nuestro marco de dualidad de espacio de estados (SSD, por sus siglas en inglés) nos permite diseñar una nueva arquitectura (Mamba-2) cuya capa central es una refinación del SSM selectivo de Mamba, que es de 2 a 8 veces más rápida, mientras continúa siendo competitiva con los Transformers en el modelado del lenguaje.

Video-MME: El primer punto de referencia integral de evaluación de modelos de lenguaje multimodal (LLM) en análisis de video.
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

May 31

ByChaoyou Fu, Yuhan Dai, Yondong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Rongrong Ji, Xing Sun

En la búsqueda de la inteligencia artificial general, los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han surgido como un punto focal en los avances recientes. Sin embargo, el enfoque predominante sigue siendo el desarrollo de sus capacidades en la comprensión de imágenes estáticas. El potencial de los MLLMs en el procesamiento de datos visuales secuenciales aún no ha sido suficientemente explorado, lo que destaca la ausencia de una evaluación integral y de alta calidad de su rendimiento. En este artículo, presentamos Video-MME, el primer punto de referencia de evaluación multimodal de espectro completo para MLLMs en el análisis de video. Nuestro trabajo se distingue de los puntos de referencia existentes a través de cuatro características clave: 1) Diversidad en los tipos de video, abarcando 6 dominios visuales principales con 30 subcampos para garantizar una generalización amplia de escenarios; 2) Duración en la dimensión temporal, incluyendo videos a corto, mediano y largo plazo, que van desde 11 segundos hasta 1 hora, para una dinámica contextual robusta; 3) Amplitud en las modalidades de datos, integrando entradas multimodales además de los fotogramas de video, incluyendo subtítulos y audios, para revelar las capacidades integrales de los MLLMs; 4) Calidad en las anotaciones, utilizando un etiquetado manual riguroso por parte de anotadores expertos para facilitar una evaluación precisa y confiable del modelo. Se seleccionaron y anotaron manualmente 900 videos con un total de 256 horas, revisando repetidamente todo el contenido de video, lo que resultó en 2,700 pares de preguntas y respuestas. Con Video-MME, evaluamos extensamente varios MLLMs de última generación, incluyendo la serie GPT-4 y Gemini 1.5 Pro, así como modelos de imagen de código abierto como InternVL-Chat-V1.5 y modelos de video como LLaVA-NeXT-Video. Nuestros experimentos revelan que Gemini 1.5 Pro es el modelo comercial con mejor rendimiento, superando significativamente a los modelos de código abierto. Nuestro conjunto de datos junto con estos hallazgos subrayan la necesidad de mejoras adicionales en el manejo de secuencias más largas y datos multimodales. Página del proyecto: https://video-mme.github.io

Perplejo ante la Perplejidad: Poda de Datos Basada en Perplejidad con Modelos de Referencia Pequeños
Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models

May 30

ByZachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt, Mansheej Paul

En este trabajo, investigamos si los modelos de lenguaje pequeños pueden determinar subconjuntos de alta calidad en conjuntos de datos de texto a gran escala que mejoren el rendimiento de modelos de lenguaje más grandes. Si bien trabajos previos han demostrado que la poda basada en la perplejidad de un modelo más grande puede producir datos de alta calidad, exploramos si los modelos más pequeños pueden utilizarse para la poda basada en perplejidad y cómo la composición del dominio de los datos afecta este proceso. Demostramos que, para múltiples composiciones de conjuntos de datos, la poda de datos de preentrenamiento basada en perplejidad puede mejorar significativamente el rendimiento en tareas posteriores: la poda basada en perplejidades calculadas con un modelo de 125 millones de parámetros mejora el rendimiento promedio en tareas posteriores de un modelo de 3 mil millones de parámetros hasta en 2.04 y logra una reducción de hasta 1.45 veces en los pasos de preentrenamiento para alcanzar un rendimiento base equivalente. Además, demostramos que esta poda de datos basada en perplejidad también genera mejoras en el rendimiento en regímenes de sobreentrenamiento y limitación de datos.

Kaleido Diffusion: Mejora de Modelos de Difusión Condicionales mediante Modelado Autoregresivo de Latentes
Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling

May 31

ByJiatao Gu, Ying Shen, Shuangfei Zhai, Yizhe Zhang, Navdeep Jaitly, Joshua M. Susskind

Los modelos de difusión han surgido como una herramienta poderosa para generar imágenes de alta calidad a partir de descripciones textuales. A pesar de sus éxitos, estos modelos suelen exhibir una diversidad limitada en las imágenes muestreadas, especialmente cuando se utiliza un peso alto de guía sin clasificador. Para abordar este problema, presentamos Kaleido, un enfoque novedoso que mejora la diversidad de las muestras mediante la incorporación de priores latentes autorregresivos. Kaleido integra un modelo de lenguaje autorregresivo que codifica la descripción original y genera variables latentes, sirviendo como representaciones abstractas e intermedias para guiar y facilitar el proceso de generación de imágenes. En este artículo, exploramos una variedad de representaciones latentes discretas, incluyendo descripciones textuales, cuadros delimitadores de detección, manchas de objetos y tokens visuales. Estas representaciones diversifican y enriquecen las condiciones de entrada a los modelos de difusión, permitiendo salidas más diversas. Nuestros resultados experimentales demuestran que Kaleido amplía efectivamente la diversidad de las muestras de imágenes generadas a partir de una descripción textual dada, manteniendo una alta calidad de imagen. Además, mostramos que Kaleido se adhiere estrechamente a la guía proporcionada por las variables latentes generadas, demostrando su capacidad para controlar y dirigir eficazmente el proceso de generación de imágenes.

4Diffusion: Modelo de Difusión de Vídeo Multivista para Generación 4D
4Diffusion: Multi-view Video Diffusion Model for 4D Generation

May 31

ByHaiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao

Los métodos actuales de generación 4D han logrado una eficacia notable con la ayuda de modelos generativos avanzados basados en difusión. Sin embargo, estos métodos carecen de modelado espacio-temporal multivista y enfrentan desafíos al integrar diversos conocimientos previos de múltiples modelos de difusión, lo que resulta en una apariencia temporal inconsistente y parpadeos. En este artículo, proponemos una novedosa pipeline de generación 4D, denominada 4Diffusion, destinada a generar contenido 4D espacio-temporalmente consistente a partir de un video monocular. Primero, diseñamos un modelo de difusión unificado adaptado para la generación de video multivista, incorporando un módulo de movimiento aprendible en un modelo de difusión 3D congelado para capturar correlaciones espacio-temporales multivista. Después del entrenamiento en un conjunto de datos seleccionado, nuestro modelo de difusión adquiere una consistencia temporal razonable y preserva inherentemente la generalización y la consistencia espacial del modelo de difusión 3D. Posteriormente, proponemos una pérdida de Distorsión de Puntuación 4D, basada en nuestro modelo de difusión de video multivista, para optimizar la representación 4D parametrizada por NeRF dinámico. Esto tiene como objetivo eliminar las discrepancias que surgen de múltiples modelos de difusión, permitiendo la generación de contenido 4D espacio-temporalmente consistente. Además, ideamos una pérdida de anclaje para mejorar los detalles de apariencia y facilitar el aprendizaje de NeRF dinámico. Experimentos cualitativos y cuantitativos extensos demuestran que nuestro método logra un rendimiento superior en comparación con métodos anteriores.

Shampoo de 4 bits para el entrenamiento eficiente en memoria de redes neuronales
4-bit Shampoo for Memory-Efficient Network Training

May 28

BySike Wang, Jia Li, Pan Zhou, Hua Huang

Los optimizadores de segundo orden, que mantienen una matriz denominada precondicionador, son superiores a los optimizadores de primer orden tanto en teoría como en la práctica. Los estados que forman el precondicionador y su raíz inversa limitan el tamaño máximo de los modelos entrenados por optimizadores de segundo orden. Para abordar esto, la compresión de los estados del optimizador de 32 bits a anchos de bits más bajos ha mostrado ser prometedora para reducir el uso de memoria. Sin embargo, los enfoques actuales solo se aplican a optimizadores de primer orden. En este artículo, proponemos los primeros optimizadores de segundo orden de 4 bits, ejemplificados por Shampoo de 4 bits, que mantienen un rendimiento similar al de los de 32 bits. Demostramos que cuantizar la matriz de vectores propios del precondicionador en Shampoo de 4 bits es notablemente mejor que cuantizar el precondicionador en sí, tanto teórica como experimentalmente. Al rectificar la ortogonalidad de la matriz de vectores propios cuantizada, mejoramos la aproximación de la matriz de vectores propios del precondicionador, lo que también beneficia el cálculo de su raíz inversa de cuarto orden. Además, encontramos que la cuantización lineal cuadrática supera ligeramente a la cuantización dinámica en árbol al cuantizar los estados de los optimizadores de segundo orden. La evaluación en varias redes para clasificación de imágenes demuestra que nuestro Shampoo de 4 bits logra una precisión en pruebas comparable a su contraparte de 32 bits, siendo más eficiente en memoria. El código fuente estará disponible.