Artículos de investigación en IA seleccionados diariamente con traducciones
Este artículo revela una característica lineal novedosa exclusiva de los decodificadores de transformadores, incluyendo modelos como GPT, LLaMA, OPT, BLOOM y otros. Analizamos las transformaciones de embeddings entre capas secuenciales, descubriendo una relación casi perfectamente lineal (puntuación de similitud de Procrustes de 0.99). Sin embargo, la linealidad disminuye cuando se elimina el componente residual debido a una norma de salida consistentemente baja en la capa del transformador. Nuestros experimentos muestran que eliminar o aproximar linealmente algunos de los bloques más lineales de los transformadores no afecta significativamente la pérdida ni el rendimiento del modelo. Además, en nuestros experimentos de preentrenamiento en modelos más pequeños, introducimos una regularización basada en similitud coseno, destinada a reducir la linealidad de las capas. Esta regularización mejora las métricas de rendimiento en benchmarks como Tiny Stories y SuperGLUE, y también logra disminuir exitosamente la linealidad de los modelos. Este estudio desafía la comprensión actual de las arquitecturas de transformadores, sugiriendo que su funcionamiento puede ser más lineal de lo que se asumía anteriormente.
El almacenamiento en caché de clave-valor (KV) desempeña un papel esencial en la aceleración de la decodificación para modelos de lenguaje grandes (LLMs) autoregresivos basados en transformadores. Sin embargo, la cantidad de memoria requerida para almacenar la caché KV puede volverse prohibitiva en secuencias largas y tamaños de lote grandes. Desde la invención del transformador, dos de las intervenciones más efectivas descubiertas para reducir el tamaño de la caché KV han sido la Atención de Múltiples Consultas (MQA) y su generalización, la Atención de Consultas Agrupadas (GQA). Tanto MQA como GQA modifican el diseño del bloque de atención para que múltiples cabezas de consulta compartan una sola cabeza de clave/valor, reduciendo el número de cabezas de clave/valor distintas en un gran factor mientras solo degradan mínimamente la precisión. En este artículo, demostramos que es posible llevar la Atención de Múltiples Consultas un paso más allá al compartir también cabezas de clave y valor entre capas adyacentes, lo que da lugar a un nuevo diseño de atención que llamamos Atención entre Capas (CLA). Con CLA, encontramos que es posible reducir el tamaño de la caché KV en otro 2x mientras se mantiene casi la misma precisión que MQA sin modificar. En experimentos de entrenamiento de modelos de 1B y 3B parámetros desde cero, demostramos que CLA proporciona una mejora de Pareto en los compromisos memoria/precisión que son posibles con MQA tradicional, permitiendo inferencias con secuencias más largas y tamaños de lote más grandes de lo que sería posible de otra manera.
Los modelos del mundo representan un enfoque prometedor para entrenar agentes de aprendizaje por refuerzo de manera segura y eficiente en términos de muestras. Los modelos del mundo recientes operan principalmente sobre secuencias de variables latentes discretas para modelar la dinámica del entorno. Sin embargo, esta compresión en una representación discreta compacta puede ignorar detalles visuales que son importantes para el aprendizaje por refuerzo. Paralelamente, los modelos de difusión se han convertido en un enfoque dominante para la generación de imágenes, desafiando métodos bien establecidos que modelan latentes discretos. Motivados por este cambio de paradigma, presentamos DIAMOND (DIffusion As a Model Of eNvironment Dreams), un agente de aprendizaje por refuerzo entrenado en un modelo del mundo basado en difusión. Analizamos las decisiones clave de diseño necesarias para hacer que la difusión sea adecuada para el modelado del mundo, y demostramos cómo los detalles visuales mejorados pueden llevar a un mejor rendimiento del agente. DIAMOND logra una puntuación media normalizada humana de 1.46 en el competitivo benchmark Atari 100k; un nuevo récord para agentes entrenados completamente dentro de un modelo del mundo. Para fomentar futuras investigaciones sobre la difusión en el modelado del mundo, publicamos nuestro código, agentes y modelos del mundo jugables en https://github.com/eloialonso/diamond.
Los métodos actuales de recreación e intercambio facial se basan principalmente en marcos GAN, pero recientemente el enfoque se ha desplazado hacia modelos de difusión preentrenados por sus capacidades superiores de generación. Sin embargo, entrenar estos modelos es intensivo en recursos, y los resultados aún no han alcanzado niveles de rendimiento satisfactorios. Para abordar este problema, presentamos Face-Adapter, un adaptador eficiente y efectivo diseñado para la edición facial de alta precisión y alta fidelidad en modelos de difusión preentrenados. Observamos que tanto las tareas de recreación como de intercambio facial implican esencialmente combinaciones de estructura objetivo, identidad (ID) y atributos. Nuestro objetivo es desacoplar suficientemente el control de estos factores para lograr ambas tareas en un solo modelo. Específicamente, nuestro método incluye: 1) Un Generador de Condiciones Espaciales que proporciona puntos de referencia precisos y el fondo; 2) Un Codificador de Identidad Plug-and-play que transfiere incrustaciones faciales al espacio de texto mediante un decodificador transformador; 3) Un Controlador de Atributos que integra condiciones espaciales y atributos detallados. Face-Adapter logra un rendimiento comparable o incluso superior en términos de precisión de control de movimiento, capacidad de retención de ID y calidad de generación en comparación con modelos de recreación/intercambio facial completamente ajustados. Además, Face-Adapter se integra perfectamente con varios modelos StableDiffusion.
El campo de emparejamiento de imágenes ha sido testigo de la continua aparición de nuevas técnicas aprendibles para el emparejamiento de características, con un rendimiento cada vez mejor en los benchmarks convencionales. Sin embargo, nuestra investigación muestra que, a pesar de estos avances, su potencial para aplicaciones del mundo real se ve limitado por sus capacidades de generalización reducidas hacia nuevos dominios de imágenes. En este artículo, presentamos OmniGlue, el primer emparejador de imágenes aprendible diseñado con la generalización como principio fundamental. OmniGlue aprovecha el conocimiento amplio de un modelo base de visión para guiar el proceso de emparejamiento de características, mejorando la generalización a dominios no vistos durante el entrenamiento. Además, proponemos un novedoso mecanismo de atención guiado por la posición de puntos clave, que separa la información espacial y de apariencia, lo que conduce a descriptores de emparejamiento mejorados. Realizamos experimentos exhaustivos en un conjunto de 7 conjuntos de datos con diversos dominios de imágenes, incluyendo imágenes a nivel de escena, centradas en objetos y aéreas. Los componentes novedosos de OmniGlue logran ganancias relativas en dominios no vistos del 20.9% con respecto a un modelo de referencia directamente comparable, superando también al reciente método LightGlue en un 9.5% relativamente. El código y el modelo pueden encontrarse en https://hwjiang1510.github.io/OmniGlue.
Presentamos residuos personalizados y muestreo guiado por atención localizada para la generación eficiente basada en conceptos utilizando modelos de difusión de texto a imagen. Nuestro método primero representa los conceptos mediante la congelación de los pesos de un modelo de difusión preentrenado condicionado por texto y el aprendizaje de residuos de bajo rango para un pequeño subconjunto de las capas del modelo. El enfoque basado en residuos permite directamente la aplicación de nuestra técnica de muestreo propuesta, la cual aplica los residuos aprendidos solo en áreas donde el concepto está localizado mediante atención cruzada y aplica los pesos originales de difusión en todas las demás regiones. Por lo tanto, el muestreo localizado combina la identidad aprendida del concepto con el conocimiento generativo previo del modelo de difusión subyacente. Demostramos que los residuos personalizados capturan efectivamente la identidad de un concepto en ~3 minutos en una sola GPU sin el uso de imágenes de regularización y con menos parámetros que modelos anteriores, y que el muestreo localizado permite utilizar el modelo original como un fuerte conocimiento previo para gran parte de la imagen.