Artículos de investigación en IA seleccionados diariamente con traducciones
Diseñamos una nueva familia de redes neuronales híbridas CNN-ViT, denominada FasterViT, con un enfoque en el alto rendimiento de procesamiento de imágenes para aplicaciones de visión por computadora (CV). FasterViT combina los beneficios del aprendizaje rápido de representaciones locales en CNNs y las propiedades de modelado global en ViT. Nuestro enfoque recién introducido, Atención Jerárquica (HAT), descompone la autoatención global con complejidad cuadrática en una atención multinivel con costos computacionales reducidos. Nos beneficiamos de la autoatención eficiente basada en ventanas. Cada ventana tiene acceso a tokens portadores dedicados que participan en el aprendizaje de representaciones locales y globales. A un nivel superior, las autoatenciones globales permiten una comunicación eficiente entre ventanas a costos más bajos. FasterViT alcanza un frente de Pareto de vanguardia en términos de precisión frente al rendimiento de procesamiento de imágenes. Hemos validado extensamente su efectividad en diversas tareas de CV, incluyendo clasificación, detección de objetos y segmentación. También mostramos que HAT puede utilizarse como un módulo plug-and-play para redes existentes y mejorarlas. Además, demostramos un rendimiento significativamente más rápido y preciso que el de competidores comparables para imágenes de alta resolución. El código está disponible en https://github.com/NVlabs/FasterViT.
Los algoritmos de entrenamiento, en un sentido amplio, son una parte esencial de cada flujo de trabajo en aprendizaje profundo. Las mejoras en los algoritmos de entrenamiento que aceleran el proceso en una amplia variedad de cargas de trabajo (por ejemplo, reglas de actualización más eficientes, protocolos de ajuste, programaciones de tasas de aprendizaje o esquemas de selección de datos) podrían ahorrar tiempo, reducir el uso de recursos computacionales y conducir a modelos mejores y más precisos. Desafortunadamente, como comunidad, actualmente no somos capaces de identificar de manera confiable mejoras en los algoritmos de entrenamiento, ni siquiera de determinar cuál es el algoritmo de entrenamiento más avanzado. En este trabajo, mediante experimentos concretos, argumentamos que el progreso real en la aceleración del entrenamiento requiere nuevos puntos de referencia que resuelvan tres desafíos básicos enfrentados por las comparaciones empíricas de algoritmos de entrenamiento: (1) cómo decidir cuándo el entrenamiento ha finalizado y medir con precisión el tiempo de entrenamiento, (2) cómo manejar la sensibilidad de las mediciones a los detalles específicos de la carga de trabajo, y (3) cómo comparar de manera justa algoritmos que requieren ajuste de hiperparámetros. Para abordar estos desafíos, presentamos un nuevo punto de referencia competitivo basado en el tiempo hasta obtener resultados, utilizando múltiples cargas de trabajo ejecutadas en hardware fijo: el punto de referencia AlgoPerf: Algoritmos de Entrenamiento. Nuestro punto de referencia incluye un conjunto de variantes de cargas de trabajo que permiten detectar propuestas que son más robustas a los cambios en la carga de trabajo que los métodos ampliamente utilizados en la actualidad. Finalmente, evaluamos propuestas de línea base construidas utilizando varios optimizadores que representan las prácticas actuales, así como otros optimizadores que han recibido atención reciente en la literatura. Estos resultados de línea base demuestran colectivamente la viabilidad de nuestro punto de referencia, muestran que existen brechas no triviales entre los métodos y establecen un estado del arte provisional para que futuras propuestas intenten superar.
Los grandes modelos de difusión de texto a imagen tienen capacidades impresionantes para generar imágenes fotorrealistas a partir de indicaciones de texto. Cómo guiar o controlar de manera efectiva estos modelos potentes para realizar diferentes tareas posteriores se convierte en un problema abierto importante. Para abordar este desafío, introducimos un método de ajuste fino basado en principios: Ajuste Fino Ortogonal (OFT, por sus siglas en inglés), para adaptar modelos de difusión de texto a imagen a tareas posteriores. A diferencia de los métodos existentes, OFT puede preservar de manera demostrable la energía hiperesférica, que caracteriza la relación entre pares de neuronas en la hiperesfera unitaria. Descubrimos que esta propiedad es crucial para preservar la capacidad de generación semántica de los modelos de difusión de texto a imagen. Para mejorar la estabilidad del ajuste fino, proponemos además el Ajuste Fino Ortogonal Restringido (COFT), que impone una restricción adicional de radio a la hiperesfera. Específicamente, consideramos dos tareas importantes de ajuste fino de texto a imagen: la generación impulsada por sujetos, donde el objetivo es generar imágenes específicas de un sujeto dadas unas pocas imágenes del sujeto y una indicación de texto, y la generación controlable, donde el objetivo es permitir que el modelo reciba señales de control adicionales. Demostramos empíricamente que nuestro marco OFT supera a los métodos existentes en calidad de generación y velocidad de convergencia.
Los modelos de lenguaje de gran escala (LLMs) existentes solo pueden manejar entradas de tamaño fijo debido al límite de longitud de entrada, lo que les impide utilizar información rica de contexto largo proveniente de entradas pasadas. Para abordar este problema, proponemos un marco denominado Modelos de Lenguaje Aumentados con Memoria a Largo Plazo (LongMem), que permite a los LLMs memorizar historiales extensos. Diseñamos una arquitectura de red desacoplada novedosa, donde el LLM original se mantiene congelado como un codificador de memoria y una red lateral residual adaptativa actúa como recuperador y lector de memoria. Este diseño de memoria desacoplada permite almacenar y actualizar fácilmente contextos pasados a largo plazo para la recuperación de memoria, sin sufrir de obsolescencia de la memoria. Potenciado con un entrenamiento de adaptación aumentado por memoria, LongMem puede memorizar contextos pasados extensos y utilizar memoria a largo plazo para el modelado del lenguaje. El módulo de recuperación de memoria propuesto puede manejar contextos de longitud ilimitada en su banco de memoria, beneficiando diversas tareas posteriores. Típicamente, LongMem puede ampliar la memoria de formato largo a 65k tokens, permitiendo almacenar ejemplos de demostración adicionales como memoria de formato largo para el aprendizaje en contexto. Los experimentos muestran que nuestro método supera a modelos fuertes de contexto largo en ChapterBreak, un punto de referencia desafiante para el modelado de contexto largo, y logra mejoras notables en el aprendizaje en contexto aumentado por memoria sobre los LLMs. Los resultados demuestran que el método propuesto es efectivo para ayudar a los modelos de lenguaje a memorizar y utilizar contenidos de formato largo. Nuestro código es de código abierto en https://aka.ms/LongMem.
Presentamos Face0, una novedosa forma de condicionar instantáneamente un modelo de generación de texto a imagen sobre un rostro, en tiempo de muestreo, sin necesidad de procedimientos de optimización como ajuste fino o inversiones. Aumentamos un conjunto de datos de imágenes anotadas con incrustaciones (embeddings) de los rostros incluidos y entrenamos un modelo de generación de imágenes sobre el conjunto de datos aumentado. Una vez entrenado, nuestro sistema es prácticamente idéntico en tiempo de inferencia al modelo base subyacente y, por lo tanto, es capaz de generar imágenes, dada una imagen de rostro proporcionada por el usuario y un texto de entrada, en solo un par de segundos. Nuestro método logra resultados satisfactorios, es notablemente simple, extremadamente rápido y equipa al modelo subyacente con nuevas capacidades, como controlar las imágenes generadas tanto mediante texto como mediante la manipulación directa de las incrustaciones del rostro de entrada. Además, al usar un vector aleatorio fijo en lugar de una incrustación de rostro de una imagen proporcionada por el usuario, nuestro método esencialmente resuelve el problema de la generación consistente de personajes en diferentes imágenes. Finalmente, aunque requiere más investigación, esperamos que nuestro método, que desacopla los sesgos textuales del modelo de sus sesgos sobre rostros, pueda ser un paso hacia la mitigación de sesgos en futuros modelos de texto a imagen.
Presentamos Cap3D, un enfoque automático para generar texto descriptivo para objetos 3D. Este método utiliza modelos preentrenados de generación de subtítulos para imágenes, alineación imagen-texto y LLM (Modelos de Lenguaje de Gran Escala) para consolidar descripciones a partir de múltiples vistas de un activo 3D, evitando por completo el proceso lento y costoso de la anotación manual. Aplicamos Cap3D al recientemente introducido conjunto de datos a gran escala Objaverse, obteniendo 660k pares de texto-3D. Nuestra evaluación, realizada utilizando 41k anotaciones humanas del mismo conjunto de datos, demuestra que Cap3D supera las descripciones creadas por humanos en términos de calidad, costo y velocidad. Mediante una ingeniería de prompts efectiva, Cap3D rivaliza con el rendimiento humano en la generación de descripciones geométricas sobre 17k anotaciones recopiladas del conjunto de datos ABO. Finalmente, ajustamos modelos de Texto-a-3D con Cap3D y descripciones humanas, mostrando que Cap3D supera a estas; y comparamos con el estado del arte, incluyendo Point-E, Shape-E y DreamFusion.
Los modelos de lenguaje han sido utilizados con éxito para modelar señales naturales, como imágenes, voz y música. Un componente clave de estos modelos es un sistema de compresión neuronal de alta calidad que puede comprimir señales naturales de alta dimensionalidad en tokens discretos de menor dimensionalidad. Con este fin, presentamos un algoritmo universal de compresión neuronal de audio de alta fidelidad que logra una compresión de ~90x de audio a 44.1 KHz en tokens con un ancho de banda de solo 8 kbps. Esto lo conseguimos combinando avances en la generación de audio de alta fidelidad con mejores técnicas de cuantización vectorial del dominio de las imágenes, junto con pérdidas adversarias y de reconstrucción mejoradas. Comprimimos todos los dominios (voz, sonidos ambientales, música, etc.) con un único modelo universal, lo que lo hace ampliamente aplicable al modelado generativo de todo tipo de audio. Comparamos nuestro método con otros algoritmos de compresión de audio y encontramos que supera significativamente a la competencia. Proporcionamos análisis detallados para cada decisión de diseño, así como código de código abierto y pesos de modelos entrenados. Esperamos que nuestro trabajo siente las bases para la próxima generación de modelado de audio de alta fidelidad.
Identificamos dinámicas de aprendizaje incremental en transformadores, donde la diferencia entre los pesos entrenados y los iniciales aumenta progresivamente en rango. Demostramos rigurosamente que esto ocurre bajo las suposiciones simplificadoras de matrices de pesos diagonales y una inicialización pequeña. Nuestros experimentos respaldan la teoría y también muestran que este fenómeno puede ocurrir en la práctica sin las suposiciones simplificadoras.
Los modelos de contraste imagen-texto como CLIP constituyen los bloques fundamentales de muchos sistemas de vanguardia. Si bien sobresalen en el reconocimiento de conceptos genéricos comunes, aún presentan dificultades con entidades específicas que son raras o incluso están ausentes en el conjunto de datos de preentrenamiento. Por lo tanto, un elemento clave para su éxito ha sido el uso de datos de preentrenamiento a gran escala y cuidadosamente seleccionados, con el objetivo de ampliar el conjunto de conceptos que pueden memorizar durante la etapa de preentrenamiento. En este trabajo, exploramos una alternativa a la codificación directa del conocimiento específico en los parámetros del modelo: en su lugar, entrenamos al modelo para recuperar este conocimiento de una memoria externa. Específicamente, proponemos dotar a los modelos existentes de visión y texto con la capacidad de refinar su representación mediante información recuperada de manera multimodal desde una memoria durante la inferencia, lo que mejora significativamente sus predicciones en escenarios de cero disparos. De manera notable, demostramos que esto puede lograrse con un transformador de fusión ligero y de una sola capa, superpuesto a un CLIP congelado. Nuestros experimentos validan que nuestro entrenamiento de contraste mejorado con recuperación (RECO) mejora sustancialmente el rendimiento de CLIP en varias tareas desafiantes de granularidad fina: por ejemplo, +10.9 en Stanford Cars, +10.2 en CUB-2011 y +7.3 en el reciente benchmark OVEN.
Los métodos de extracción de información más avanzados están limitados por errores de OCR. Funcionan bien para texto impreso en documentos con formato, pero los documentos no estructurados y manuscritos siguen siendo un desafío. Adaptar los modelos existentes a datos de entrenamiento específicos del dominio es bastante costoso, debido a dos factores: 1) la disponibilidad limitada de documentos específicos del dominio (como recetas médicas manuscritas, notas de laboratorio, etc.), y 2) las anotaciones se vuelven aún más desafiantes ya que se necesita conocimiento específico del dominio para decodificar imágenes de documentos manuscritos inescrutables. En este trabajo, nos enfocamos en el problema complejo de extraer nombres de medicamentos de recetas médicas manuscritas utilizando únicamente datos débilmente etiquetados. Los datos consisten en imágenes junto con la lista de nombres de medicamentos presentes, pero no su ubicación en la imagen. Resolvemos el problema identificando primero las regiones de interés, es decir, las líneas de medicamentos, a partir de etiquetas débiles, y luego inyectando un modelo de lenguaje específico del dominio para medicamentos, aprendido utilizando únicamente datos generados sintéticamente. En comparación con los métodos estándar más avanzados, nuestro enfoque supera en más de 2.5 veces la extracción de nombres de medicamentos en recetas.