Artículos de investigación en IA seleccionados diariamente con traducciones
Tras la reciente popularidad de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), se han realizado varios intentos para extenderlos al dominio visual. Desde contar con un asistente visual que pueda guiarnos en entornos desconocidos hasta modelos generativos que producen imágenes utilizando únicamente una descripción textual de alto nivel, las aplicaciones de los modelos de visión y lenguaje (VLM, por sus siglas en inglés) tendrán un impacto significativo en nuestra relación con la tecnología. Sin embargo, existen muchos desafíos que deben abordarse para mejorar la confiabilidad de estos modelos. Mientras que el lenguaje es discreto, la visión se desarrolla en un espacio de dimensiones mucho más altas en el que los conceptos no siempre pueden discretizarse fácilmente. Para comprender mejor los mecanismos detrás del mapeo de la visión al lenguaje, presentamos esta introducción a los VLMs, que esperamos sea útil para cualquier persona que desee adentrarse en este campo. Primero, introducimos qué son los VLMs, cómo funcionan y cómo entrenarlos. Luego, presentamos y discutimos enfoques para evaluar los VLMs. Aunque este trabajo se centra principalmente en el mapeo de imágenes a lenguaje, también discutimos la extensión de los VLMs a videos.
El bajo rendimiento de los transformadores en tareas aritméticas parece deberse en gran parte a su incapacidad para rastrear la posición exacta de cada dígito dentro de un intervalo amplio de dígitos. Solucionamos este problema añadiendo una incrustación a cada dígito que codifica su posición relativa al inicio del número. Además del impulso que estas incrustaciones proporcionan por sí mismas, demostramos que esta corrección permite que modificaciones arquitectónicas, como la inyección de entrada y capas recurrentes, mejoren aún más el rendimiento. Con las posiciones resueltas, podemos estudiar la capacidad de extrapolación lógica de los transformadores. ¿Pueden resolver problemas aritméticos más grandes y complejos que los presentes en sus datos de entrenamiento? Descubrimos que, entrenando únicamente con números de 20 dígitos utilizando una sola GPU durante un día, podemos alcanzar un rendimiento de vanguardia, logrando hasta un 99% de precisión en problemas de suma de 100 dígitos. Finalmente, demostramos que estas mejoras en habilidades numéricas también desbloquean avances en otras tareas de razonamiento de múltiples pasos, como la ordenación y la multiplicación.
Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) como LLaVA han demostrado un rendimiento sólido en el razonamiento visual-lingüístico. Estos modelos primero incrustan imágenes en un número fijo y grande de tokens visuales, que luego se alimentan a un Modelo de Lenguaje Grande (LLM). Sin embargo, este diseño genera un número excesivo de tokens en escenarios visuales densos, como imágenes y videos de alta resolución, lo que conlleva una gran ineficiencia. Aunque existen métodos de poda/fusión de tokens, estos producen una salida de longitud única para cada imagen y no ofrecen flexibilidad para equilibrar la densidad de información frente a la eficiencia. Inspirados por el concepto de las Muñecas Matrioska, proponemos M3: Modelos Multimodales Matrioska, que aprende a representar contenido visual como conjuntos anidados de tokens visuales que capturan información en múltiples niveles de granularidad, de lo general a lo detallado. Nuestro enfoque ofrece varios beneficios únicos para los LMMs: (1) Se puede controlar explícitamente la granularidad visual por instancia durante la inferencia, por ejemplo, ajustando el número de tokens utilizados para representar una imagen según la complejidad o simplicidad anticipada del contenido; (2) M3 proporciona un marco para analizar la granularidad necesaria en conjuntos de datos existentes, donde encontramos que los benchmarks de estilo COCO solo necesitan alrededor de ~9 tokens visuales para obtener una precisión similar a la de usar los 576 tokens; (3) Nuestro enfoque sienta las bases para explorar el mejor equilibrio entre rendimiento y longitud de tokens visuales a nivel de muestra, donde nuestra investigación revela que existe una gran brecha entre el límite superior teórico y las representaciones de escala fija actuales.
En este informe técnico, presentamos Zamba, un novedoso modelo híbrido SSM-transformer de 7B que logra un rendimiento competitivo frente a los principales modelos de peso abierto a una escala comparable. Zamba está entrenado con 1T de tokens provenientes de conjuntos de datos disponibles públicamente y es el mejor modelo no basado en transformers a esta escala. Zamba introduce una arquitectura única que combina una estructura principal Mamba con un único módulo de atención compartido, obteniendo así los beneficios de la atención con un costo mínimo de parámetros. Gracias a su arquitectura, Zamba es significativamente más rápido en inferencia que los modelos transformers comparables y requiere sustancialmente menos memoria para la generación de secuencias largas. Zamba se preentrena en dos fases: la primera fase se basa en conjuntos de datos web existentes, mientras que la segunda consiste en un proceso de recocido del modelo sobre conjuntos de datos de instrucciones de alta calidad y datos sintéticos, caracterizado por una rápida disminución de la tasa de aprendizaje. Liberamos los pesos y todos los puntos de control de Zamba, tanto para la fase 1 como para las fases de recocido.
Los modelos de embeddings basados en grandes modelos de lenguaje (LLM) de solo decodificador están comenzando a superar a los modelos de embeddings basados en BERT o T5 en tareas generales de generación de embeddings de texto, incluyendo la recuperación basada en vectores densos. En este trabajo, presentamos el modelo NV-Embed, que incorpora una variedad de diseños arquitectónicos y procedimientos de entrenamiento para mejorar significativamente el rendimiento de los LLM como modelos de embeddings versátiles, manteniendo su simplicidad y reproducibilidad. Para la arquitectura del modelo, proponemos una capa de atención latente para obtener embeddings agrupados, lo que mejora consistentemente la precisión en tareas de recuperación y otras tareas relacionadas en comparación con el agrupamiento por media o el uso del embedding del último token <EOS> de los LLM. Para mejorar el aprendizaje de representaciones, eliminamos la máscara de atención causal de los LLM durante el entrenamiento contrastivo. En cuanto al entrenamiento del modelo, introducimos un método de ajuste por instrucciones contrastivo en dos etapas. En la primera etapa, se aplica entrenamiento contrastivo con instrucciones en conjuntos de datos de recuperación, utilizando negativos dentro del lote y ejemplos negativos difíciles seleccionados. En la segunda etapa, se integran diversos conjuntos de datos no relacionados con la recuperación en el ajuste por instrucciones, lo que no solo mejora la precisión en tareas no relacionadas con la recuperación, sino que también refuerza el rendimiento en tareas de recuperación. Combinando estas técnicas, nuestro modelo NV-Embed, utilizando únicamente datos disponibles públicamente, ha alcanzado una puntuación récord de 69.32, posicionándose en el primer lugar en el Massive Text Embedding Benchmark (MTEB) (al 24 de mayo de 2024), con 56 tareas que abarcan recuperación, reordenamiento, clasificación, agrupamiento y similitud semántica de textos. Cabe destacar que nuestro modelo también obtiene la puntuación más alta de 59.36 en 15 tareas de recuperación dentro del benchmark MTEB (también conocido como BEIR). El modelo estará disponible en código abierto en: https://huggingface.co/nvidia/NV-Embed-v1.
Las notables capacidades generativas de los modelos de difusión han impulsado una extensa investigación tanto en la edición de imágenes como de videos. En comparación con la edición de videos, que enfrenta desafíos adicionales en la dimensión temporal, la edición de imágenes ha presenciado el desarrollo de enfoques más diversos y de alta calidad, así como software más avanzado como Photoshop. Ante esta brecha, presentamos una solución novedosa y genérica que amplía la aplicabilidad de las herramientas de edición de imágenes a videos, propagando las ediciones desde un solo fotograma a todo el video utilizando un modelo preentrenado de imagen a video. Nuestro método, denominado I2VEdit, preserva de manera adaptativa la integridad visual y de movimiento del video original según el alcance de las ediciones, manejando eficazmente ediciones globales, locales y cambios moderados de forma, lo cual los métodos existentes no logran completamente. En el núcleo de nuestro método se encuentran dos procesos principales: Extracción de Movimiento Grueso para alinear los patrones básicos de movimiento con el video original, y Refinamiento de Apariencia para ajustes precisos utilizando coincidencias de atención de grano fino. También incorporamos una estrategia de intervalo de salto para mitigar la degradación de calidad en la generación autorregresiva a través de múltiples clips de video. Los resultados experimentales demuestran el rendimiento superior de nuestro marco en la edición de videos de grano fino, probando su capacidad para producir resultados de alta calidad y temporalmente consistentes.
Presentamos un enfoque novedoso para generar videos humanos de alta calidad y coherencia espacio-temporal a partir de una sola imagen bajo puntos de vista arbitrarios. Nuestro marco combina las fortalezas de las U-Nets para la inyección precisa de condiciones y los transformadores de difusión para capturar correlaciones globales entre puntos de vista y tiempo. El núcleo es una arquitectura en cascada de transformadores 4D que factoriza la atención a través de vistas, tiempo y dimensiones espaciales, permitiendo un modelado eficiente del espacio 4D. La condición precisa se logra inyectando la identidad humana, los parámetros de la cámara y las señales temporales en los transformadores respectivos. Para entrenar este modelo, hemos creado un conjunto de datos multidimensional que abarca imágenes, videos, datos multivista y escaneos 3D/4D, junto con una estrategia de entrenamiento multidimensional. Nuestro enfoque supera las limitaciones de métodos anteriores basados en GAN o modelos de difusión basados en U-Net, que tienen dificultades con movimientos complejos y cambios de punto de vista. A través de experimentos exhaustivos, demostramos la capacidad de nuestro método para sintetizar videos humanos realistas, coherentes y de vista libre, allanando el camino para aplicaciones multimedia avanzadas en áreas como la realidad virtual y la animación. Nuestro sitio web del proyecto es https://human4dit.github.io.
Los adaptadores de bajo rango (LoRA) y sus variantes son técnicas populares de ajuste fino eficiente en parámetros (PEFT) que igualan de cerca el rendimiento del ajuste fino completo del modelo, mientras requieren solo un pequeño número de parámetros adicionales. Estos parámetros adicionales de LoRA son específicos del modelo base que se está adaptando. Cuando el modelo base necesita ser descontinuado y reemplazado por uno nuevo, todos los módulos LoRA asociados deben ser reentrenados. Este reentrenamiento requiere acceso a los datos utilizados para entrenar el LoRA para el modelo base original. Esto es especialmente problemático para aplicaciones comerciales en la nube donde los módulos LoRA y los modelos base son alojados por proveedores de servicios que pueden no estar autorizados a almacenar datos de tareas propietarias de los clientes. Para abordar este desafío, proponemos Trans-LoRA, un método novedoso para la transferencia sin pérdidas y casi sin datos de LoRAs entre modelos base. Nuestro enfoque se basa en datos sintéticos para transferir módulos LoRA. Utilizando modelos de lenguaje grandes, diseñamos un generador de datos sintéticos para aproximar el proceso de generación de datos del subconjunto de datos de la tarea observada. El entrenamiento en el conjunto de datos sintéticos resultante transfiere los módulos LoRA a nuevos modelos. Mostramos la efectividad de nuestro enfoque utilizando tanto las familias de modelos LLama como Gemma. Nuestro enfoque logra una transferencia de LoRA sin pérdidas (en su mayoría mejorada) entre modelos dentro y entre diferentes familias de modelos base, e incluso entre diferentes métodos PEFT, en una amplia variedad de tareas.
Este artículo presenta StreamV2V, un modelo de difusión que logra la traducción de video a video (V2V) en tiempo real con indicaciones del usuario. A diferencia de los métodos V2V anteriores que utilizan lotes para procesar un número limitado de fotogramas, optamos por procesar los fotogramas de manera continua, para admitir un número ilimitado de fotogramas. En el núcleo de StreamV2V se encuentra un principio retrospectivo que relaciona el presente con el pasado. Esto se realiza manteniendo un banco de características, que archiva información de fotogramas anteriores. Para los fotogramas entrantes, StreamV2V extiende la autoatención para incluir claves y valores almacenados y fusiona directamente características pasadas similares en la salida. El banco de características se actualiza continuamente fusionando características almacenadas y nuevas, lo que lo hace compacto pero informativo. StreamV2V destaca por su adaptabilidad y eficiencia, integrándose perfectamente con modelos de difusión de imágenes sin necesidad de ajustes finos. Puede ejecutarse a 20 FPS en una GPU A100, siendo 15x, 46x, 108x y 158x más rápido que FlowVid, CoDeF, Rerender y TokenFlow, respectivamente. Métricas cuantitativas y estudios de usuarios confirman la capacidad excepcional de StreamV2V para mantener la consistencia temporal.
La investigación sobre generación de videos ha avanzado enormemente en los últimos tiempos, permitiendo la creación de videos de alta calidad a partir de indicaciones de texto o imágenes. Agregar control al proceso de generación de videos es un objetivo importante para el futuro, y enfoques recientes que condicionan los modelos de generación de videos en trayectorias de cámara han dado pasos significativos en esta dirección. Sin embargo, sigue siendo un desafío generar un video de la misma escena desde múltiples trayectorias de cámara diferentes. Las soluciones a este problema de generación de múltiples videos podrían permitir la creación de escenas 3D a gran escala con trayectorias de cámara editables, entre otras aplicaciones. Presentamos la difusión colaborativa de videos (CVD, por sus siglas en inglés) como un paso importante hacia esta visión. El marco de trabajo de CVD incluye un novedoso módulo de sincronización cruzada entre videos que promueve la consistencia entre los fotogramas correspondientes del mismo video renderizado desde diferentes poses de cámara, utilizando un mecanismo de atención epipolar. Entrenado sobre un módulo de control de cámara de última generación para la generación de videos, CVD genera múltiples videos renderizados desde diferentes trayectorias de cámara con una consistencia significativamente mejor que los métodos de referencia, como se demuestra en experimentos exhaustivos. Página del proyecto: https://collaborativevideodiffusion.github.io/.
Recientemente, el surgimiento de los modelos de difusión ha abierto nuevas oportunidades para la reconstrucción a partir de una sola vista. Sin embargo, todos los métodos existentes representan el objeto objetivo como una malla cerrada carente de información estructural, ignorando así la estructura basada en partes, que es crucial para muchas aplicaciones posteriores, de la forma reconstruida. Además, las mallas generadas suelen presentar grandes niveles de ruido, superficies no suaves y texturas borrosas, lo que dificulta obtener segmentaciones de partes satisfactorias mediante técnicas de segmentación 3D. En este artículo, presentamos Part123, un marco novedoso para la reconstrucción 3D consciente de partes a partir de una imagen de una sola vista. Primero utilizamos modelos de difusión para generar imágenes consistentes en múltiples vistas a partir de una imagen dada, y luego aprovechamos el Segment Anything Model (SAM), que demuestra una poderosa capacidad de generalización en objetos arbitrarios, para generar máscaras de segmentación en múltiples vistas. Para incorporar efectivamente la información basada en partes 2D en la reconstrucción 3D y manejar inconsistencias, introducimos el aprendizaje contrastivo en un marco de renderizado neuronal para aprender un espacio de características consciente de partes basado en las máscaras de segmentación multivista. También se desarrolla un algoritmo basado en agrupamiento para derivar automáticamente resultados de segmentación de partes 3D a partir de los modelos reconstruidos. Los experimentos muestran que nuestro método puede generar modelos 3D con partes segmentadas de alta calidad en diversos objetos. En comparación con los métodos de reconstrucción no estructurados existentes, los modelos 3D conscientes de partes de nuestro método benefician algunas aplicaciones importantes, incluyendo la reconstrucción que preserva características, el ajuste de primitivas y la edición de formas 3D.
Si bien los modelos de difusión pueden aprender distribuciones complejas, el muestreo requiere un proceso iterativo computacionalmente costoso. Los métodos de destilación existentes permiten un muestreo eficiente, pero tienen limitaciones notables, como la degradación del rendimiento con muy pocos pasos de muestreo, la dependencia del acceso a datos de entrenamiento o la optimización centrada en modos que puede fallar en capturar la distribución completa. Proponemos EM Distillation (EMD), un enfoque basado en máxima verosimilitud que destila un modelo de difusión a un modelo generador de un solo paso con una pérdida mínima de calidad perceptual. Nuestro enfoque se deriva a través de la lente de Expectation-Maximization (EM), donde los parámetros del generador se actualizan utilizando muestras de la distribución conjunta del modelo de difusión maestro y los latentes inferidos del generador. Desarrollamos un esquema de muestreo reparametrizado y una técnica de cancelación de ruido que juntos estabilizan el proceso de destilación. Además, revelamos una conexión interesante de nuestro método con métodos existentes que minimizan la divergencia KL centrada en modos. EMD supera a los métodos generativos de un solo paso existentes en términos de puntuaciones FID en ImageNet-64 e ImageNet-128, y se compara favorablemente con trabajos previos sobre la destilación de modelos de difusión de texto a imagen.
Los modelos generativos de video están recibiendo especial atención debido a su capacidad para generar fotogramas realistas e imaginativos. Además, se ha observado que estos modelos también exhiben una fuerte consistencia 3D, lo que aumenta significativamente su potencial para actuar como simuladores del mundo. En este trabajo, presentamos Vidu4D, un novedoso modelo de reconstrucción que destaca en la reconstrucción precisa de representaciones 4D (es decir, secuencias 3D) a partir de videos generados individuales, abordando los desafíos asociados con la no rigidez y la distorsión de fotogramas. Esta capacidad es fundamental para crear contenidos virtuales de alta fidelidad que mantengan tanto la coherencia espacial como temporal. En el núcleo de Vidu4D se encuentra nuestra técnica propuesta de Dynamic Gaussian Surfels (DGS). DGS optimiza funciones de deformación que varían en el tiempo para transformar los surfels gaussianos (elementos de superficie) de un estado estático a un estado deformado dinámicamente. Esta transformación permite una representación precisa del movimiento y la deformación a lo largo del tiempo. Para preservar la integridad estructural de los surfels gaussianos alineados con la superficie, diseñamos una regularización geométrica del estado deformado basada en campos de deformación continuos para estimar las normales. Además, aprendemos refinamientos en los parámetros de rotación y escalado de los surfels gaussianos, lo que mitiga en gran medida el parpadeo de texturas durante el proceso de deformación y mejora la captura de detalles de apariencia de grano fino. Vidu4D también incluye un estado de inicialización novedoso que proporciona un comienzo adecuado para los campos de deformación en DGS. Al equipar Vidu4D con un modelo generativo de video existente, el marco general demuestra una generación de texto a 4D de alta fidelidad tanto en apariencia como en geometría.
Una buena inicialización de los modelos de aprendizaje profundo es esencial, ya que puede ayudarles a converger mejor y más rápido. Sin embargo, el preentrenamiento de modelos grandes es inaccesible para muchos investigadores, lo que hace que una predicción deseada de los parámetros iniciales sea más necesaria en la actualidad. Las Graph HyperNetworks (GHNs), un enfoque para predecir los parámetros de los modelos, han mostrado recientemente un fuerte rendimiento en la inicialización de modelos de visión grandes. Desafortunadamente, predecir los parámetros de redes muy anchas se basa en copiar pequeños fragmentos de parámetros múltiples veces y requiere un número extremadamente grande de parámetros para soportar la predicción completa, lo que dificulta enormemente su adopción en la práctica. Para abordar esta limitación, proponemos LoGAH (Low-rank GrAph Hypernetworks), una GHN con un decodificador de parámetros de bajo rango que se expande a redes significativamente más anchas sin requerir un aumento excesivo de parámetros como en intentos anteriores. LoGAH nos permite predecir los parámetros de redes neuronales grandes de 774 millones de una manera eficiente en memoria. Mostramos que los modelos de visión y lenguaje (es decir, ViT y GPT-2) inicializados con LoGAH logran un mejor rendimiento que aquellos inicializados aleatoriamente o utilizando hiperredes existentes. Además, mostramos resultados prometedores en transfer learning al entrenar LoGAH en conjuntos de datos pequeños y usar los parámetros predichos para inicializar tareas más grandes. Proporcionamos los códigos en https://github.com/Blackzxy/LoGAH.
Abordamos el problema de larga data de cómo aprender modelos de difusión de imágenes basados en píxeles a gran escala, introduciendo un método notablemente simple de crecimiento codicioso para el entrenamiento estable de modelos de alta resolución a gran escala, sin la necesidad de componentes en cascada de superresolución. La clave radica en el preentrenamiento cuidadoso de los componentes principales, específicamente aquellos responsables de la alineación texto-imagen {\it vs.} el renderizado de alta resolución. Primero demostramos los beneficios de escalar una {\it UNet superficial}, sin codificador(decodificador) de sub(muestreo). Escalar sus capas profundas centrales mejora la alineación, la estructura de objetos y la composición. Basándonos en este modelo central, proponemos un algoritmo codicioso que expande la arquitectura hacia modelos de alta resolución de extremo a extremo, preservando la integridad de la representación preentrenada, estabilizando el entrenamiento y reduciendo la necesidad de grandes conjuntos de datos de alta resolución. Esto permite un modelo de una sola etapa capaz de generar imágenes de alta resolución sin necesidad de una cascada de superresolución. Nuestros resultados clave se basan en conjuntos de datos públicos y muestran que podemos entrenar modelos no en cascada de hasta 8B parámetros sin esquemas adicionales de regularización. Vermeer, nuestro modelo de pipeline completo entrenado con conjuntos de datos internos para producir imágenes de 1024x1024, sin cascadas, es preferido por el 44.0% frente al 21.4% de los evaluadores humanos en comparación con SDXL.