Artículos de investigación en IA seleccionados diariamente con traducciones
Si bien los Transformers han sido la arquitectura principal detrás del éxito del aprendizaje profundo en el modelado del lenguaje, los modelos de espacio de estados (SSMs, por sus siglas en inglés), como Mamba, han demostrado recientemente igualar o superar a los Transformers a pequeña y mediana escala. Mostramos que estas familias de modelos están, en realidad, estrechamente relacionadas, y desarrollamos un marco teórico rico de conexiones entre los SSMs y variantes de atención, vinculados a través de diversas descomposiciones de una clase bien estudiada de matrices semiseparables estructuradas. Nuestro marco de dualidad de espacio de estados (SSD, por sus siglas en inglés) nos permite diseñar una nueva arquitectura (Mamba-2) cuya capa central es una refinación del SSM selectivo de Mamba, que es de 2 a 8 veces más rápida, mientras continúa siendo competitiva con los Transformers en el modelado del lenguaje.
En la búsqueda de la inteligencia artificial general, los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han surgido como un punto focal en los avances recientes. Sin embargo, el enfoque predominante sigue siendo el desarrollo de sus capacidades en la comprensión de imágenes estáticas. El potencial de los MLLMs en el procesamiento de datos visuales secuenciales aún no ha sido suficientemente explorado, lo que destaca la ausencia de una evaluación integral y de alta calidad de su rendimiento. En este artículo, presentamos Video-MME, el primer punto de referencia de evaluación multimodal de espectro completo para MLLMs en el análisis de video. Nuestro trabajo se distingue de los puntos de referencia existentes a través de cuatro características clave: 1) Diversidad en los tipos de video, abarcando 6 dominios visuales principales con 30 subcampos para garantizar una generalización amplia de escenarios; 2) Duración en la dimensión temporal, incluyendo videos a corto, mediano y largo plazo, que van desde 11 segundos hasta 1 hora, para una dinámica contextual robusta; 3) Amplitud en las modalidades de datos, integrando entradas multimodales además de los fotogramas de video, incluyendo subtítulos y audios, para revelar las capacidades integrales de los MLLMs; 4) Calidad en las anotaciones, utilizando un etiquetado manual riguroso por parte de anotadores expertos para facilitar una evaluación precisa y confiable del modelo. Se seleccionaron y anotaron manualmente 900 videos con un total de 256 horas, revisando repetidamente todo el contenido de video, lo que resultó en 2,700 pares de preguntas y respuestas. Con Video-MME, evaluamos extensamente varios MLLMs de última generación, incluyendo la serie GPT-4 y Gemini 1.5 Pro, así como modelos de imagen de código abierto como InternVL-Chat-V1.5 y modelos de video como LLaVA-NeXT-Video. Nuestros experimentos revelan que Gemini 1.5 Pro es el modelo comercial con mejor rendimiento, superando significativamente a los modelos de código abierto. Nuestro conjunto de datos junto con estos hallazgos subrayan la necesidad de mejoras adicionales en el manejo de secuencias más largas y datos multimodales. Página del proyecto: https://video-mme.github.io
En este trabajo, investigamos si los modelos de lenguaje pequeños pueden determinar subconjuntos de alta calidad en conjuntos de datos de texto a gran escala que mejoren el rendimiento de modelos de lenguaje más grandes. Si bien trabajos previos han demostrado que la poda basada en la perplejidad de un modelo más grande puede producir datos de alta calidad, exploramos si los modelos más pequeños pueden utilizarse para la poda basada en perplejidad y cómo la composición del dominio de los datos afecta este proceso. Demostramos que, para múltiples composiciones de conjuntos de datos, la poda de datos de preentrenamiento basada en perplejidad puede mejorar significativamente el rendimiento en tareas posteriores: la poda basada en perplejidades calculadas con un modelo de 125 millones de parámetros mejora el rendimiento promedio en tareas posteriores de un modelo de 3 mil millones de parámetros hasta en 2.04 y logra una reducción de hasta 1.45 veces en los pasos de preentrenamiento para alcanzar un rendimiento base equivalente. Además, demostramos que esta poda de datos basada en perplejidad también genera mejoras en el rendimiento en regímenes de sobreentrenamiento y limitación de datos.
Los modelos de difusión han surgido como una herramienta poderosa para generar imágenes de alta calidad a partir de descripciones textuales. A pesar de sus éxitos, estos modelos suelen exhibir una diversidad limitada en las imágenes muestreadas, especialmente cuando se utiliza un peso alto de guía sin clasificador. Para abordar este problema, presentamos Kaleido, un enfoque novedoso que mejora la diversidad de las muestras mediante la incorporación de priores latentes autorregresivos. Kaleido integra un modelo de lenguaje autorregresivo que codifica la descripción original y genera variables latentes, sirviendo como representaciones abstractas e intermedias para guiar y facilitar el proceso de generación de imágenes. En este artículo, exploramos una variedad de representaciones latentes discretas, incluyendo descripciones textuales, cuadros delimitadores de detección, manchas de objetos y tokens visuales. Estas representaciones diversifican y enriquecen las condiciones de entrada a los modelos de difusión, permitiendo salidas más diversas. Nuestros resultados experimentales demuestran que Kaleido amplía efectivamente la diversidad de las muestras de imágenes generadas a partir de una descripción textual dada, manteniendo una alta calidad de imagen. Además, mostramos que Kaleido se adhiere estrechamente a la guía proporcionada por las variables latentes generadas, demostrando su capacidad para controlar y dirigir eficazmente el proceso de generación de imágenes.
Los métodos actuales de generación 4D han logrado una eficacia notable con la ayuda de modelos generativos avanzados basados en difusión. Sin embargo, estos métodos carecen de modelado espacio-temporal multivista y enfrentan desafíos al integrar diversos conocimientos previos de múltiples modelos de difusión, lo que resulta en una apariencia temporal inconsistente y parpadeos. En este artículo, proponemos una novedosa pipeline de generación 4D, denominada 4Diffusion, destinada a generar contenido 4D espacio-temporalmente consistente a partir de un video monocular. Primero, diseñamos un modelo de difusión unificado adaptado para la generación de video multivista, incorporando un módulo de movimiento aprendible en un modelo de difusión 3D congelado para capturar correlaciones espacio-temporales multivista. Después del entrenamiento en un conjunto de datos seleccionado, nuestro modelo de difusión adquiere una consistencia temporal razonable y preserva inherentemente la generalización y la consistencia espacial del modelo de difusión 3D. Posteriormente, proponemos una pérdida de Distorsión de Puntuación 4D, basada en nuestro modelo de difusión de video multivista, para optimizar la representación 4D parametrizada por NeRF dinámico. Esto tiene como objetivo eliminar las discrepancias que surgen de múltiples modelos de difusión, permitiendo la generación de contenido 4D espacio-temporalmente consistente. Además, ideamos una pérdida de anclaje para mejorar los detalles de apariencia y facilitar el aprendizaje de NeRF dinámico. Experimentos cualitativos y cuantitativos extensos demuestran que nuestro método logra un rendimiento superior en comparación con métodos anteriores.
Los optimizadores de segundo orden, que mantienen una matriz denominada precondicionador, son superiores a los optimizadores de primer orden tanto en teoría como en la práctica. Los estados que forman el precondicionador y su raíz inversa limitan el tamaño máximo de los modelos entrenados por optimizadores de segundo orden. Para abordar esto, la compresión de los estados del optimizador de 32 bits a anchos de bits más bajos ha mostrado ser prometedora para reducir el uso de memoria. Sin embargo, los enfoques actuales solo se aplican a optimizadores de primer orden. En este artículo, proponemos los primeros optimizadores de segundo orden de 4 bits, ejemplificados por Shampoo de 4 bits, que mantienen un rendimiento similar al de los de 32 bits. Demostramos que cuantizar la matriz de vectores propios del precondicionador en Shampoo de 4 bits es notablemente mejor que cuantizar el precondicionador en sí, tanto teórica como experimentalmente. Al rectificar la ortogonalidad de la matriz de vectores propios cuantizada, mejoramos la aproximación de la matriz de vectores propios del precondicionador, lo que también beneficia el cálculo de su raíz inversa de cuarto orden. Además, encontramos que la cuantización lineal cuadrática supera ligeramente a la cuantización dinámica en árbol al cuantizar los estados de los optimizadores de segundo orden. La evaluación en varias redes para clasificación de imágenes demuestra que nuestro Shampoo de 4 bits logra una precisión en pruebas comparable a su contraparte de 32 bits, siendo más eficiente en memoria. El código fuente estará disponible.