Artículos de investigación en IA seleccionados diariamente con traducciones
Ha habido avances significativos en la síntesis de imágenes personalizadas con métodos como Textual Inversion, DreamBooth y LoRA. Sin embargo, su aplicabilidad en el mundo real se ve limitada por las altas demandas de almacenamiento, los largos procesos de ajuste fino y la necesidad de múltiples imágenes de referencia. Por otro lado, los métodos existentes basados en incrustaciones de ID, aunque requieren solo una inferencia directa, enfrentan desafíos: o bien necesitan un ajuste fino extenso en numerosos parámetros del modelo, carecen de compatibilidad con modelos preentrenados de la comunidad o no logran mantener una alta fidelidad facial. Para abordar estas limitaciones, presentamos InstantID, una potente solución basada en modelos de difusión. Nuestro módulo plug-and-play maneja hábilmente la personalización de imágenes en varios estilos utilizando solo una imagen facial, mientras garantiza una alta fidelidad. Para lograrlo, diseñamos una novedosa IdentityNet imponiendo condiciones semánticas fuertes y condiciones espaciales débiles, integrando imágenes faciales y de puntos de referencia con indicaciones textuales para guiar la generación de imágenes. InstantID demuestra un rendimiento y eficiencia excepcionales, resultando altamente beneficioso en aplicaciones del mundo real donde la preservación de la identidad es primordial. Además, nuestro trabajo se integra perfectamente con modelos populares de difusión de texto a imagen preentrenados como SD1.5 y SDXL, sirviendo como un complemento adaptable. Nuestros códigos y puntos de control preentrenados estarán disponibles en https://github.com/InstantID/InstantID.
Este artículo presenta AIM, una colección de modelos de visión preentrenados con un objetivo autorregresivo. Estos modelos están inspirados en sus contrapartes textuales, es decir, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), y exhiben propiedades de escalabilidad similares. Específicamente, destacamos dos hallazgos clave: (1) el rendimiento de las características visuales escala tanto con la capacidad del modelo como con la cantidad de datos, (2) el valor de la función objetivo se correlaciona con el rendimiento del modelo en tareas posteriores. Ilustramos la implicación práctica de estos hallazgos preentrenando un AIM de 7 mil millones de parámetros en 2 mil millones de imágenes, que alcanza un 84.0% en ImageNet-1k con un tronco congelado. Curiosamente, incluso a esta escala, no observamos ningún signo de saturación en el rendimiento, lo que sugiere que AIM potencialmente representa una nueva frontera para el entrenamiento de modelos de visión a gran escala. El preentrenamiento de AIM es similar al preentrenamiento de LLMs y no requiere ninguna estrategia específica para imágenes para estabilizar el entrenamiento a gran escala.
Los modelos de lenguaje grandes (LLM) de tamaño moderado —aquellos con 7B o 13B parámetros— muestran un rendimiento prometedor en traducción automática (MT). Sin embargo, incluso los mejores modelos de traducción basados en LLM de 13B, como ALMA, no igualan el rendimiento de los modelos de traducción convencionales de última generación basados en arquitecturas codificador-decodificador o de LLM a mayor escala, como GPT-4. En este estudio, cerramos esta brecha de rendimiento. Primero evaluamos las limitaciones del ajuste fino supervisado (SFT) para LLM en la tarea de MT, destacando los problemas de calidad presentes en los datos de referencia, a pesar de ser generados por humanos. Luego, en contraste con el SFT que imita las traducciones de referencia, introducimos la Optimización de Preferencias Contrastivas (CPO), un enfoque novedoso que entrena a los modelos para evitar generar traducciones adecuadas pero no perfectas. Al aplicar CPO a los modelos ALMA con solo 22K oraciones paralelas y 12M parámetros, se obtienen mejoras significativas. El modelo resultante, llamado ALMA-R, puede igualar o superar el rendimiento de los ganadores de la competencia WMT y de GPT-4 en los conjuntos de prueba de WMT'21, WMT'22 y WMT'23.
Típicamente, entrenar modelos de lenguaje grandes (LLMs) con tamaños de contexto extensos es computacionalmente costoso, requiriendo horas de entrenamiento extensas y recursos significativos de GPU. Los métodos existentes de extensión de contexto largo generalmente necesitan procedimientos de entrenamiento adicionales para soportar ventanas de contexto largo correspondientes, donde se requieren datos de entrenamiento de contexto largo (por ejemplo, 32k) y se asumen altos costos de entrenamiento en GPU. Para abordar los problemas mencionados, proponemos un método de extensión de longitud Eficiente y Extremo para Modelos de Lenguaje Grandes, llamado E²-LLM, con solo un procedimiento de entrenamiento y un costo de computación drásticamente reducido, que también elimina la necesidad de recopilar datos de contexto largo. Concretamente, primero, los datos de entrenamiento de nuestro E²-LLM solo requieren una longitud corta (por ejemplo, 4k), lo que reduce enormemente el costo de ajuste. Segundo, el procedimiento de entrenamiento en la ventana de contexto de entrenamiento corto se realiza solo una vez, y podemos soportar diferentes ventanas de contexto de evaluación en la inferencia. Tercero, en E²-LLM, basado en los embeddings de posición RoPE, introducimos dos métodos diferentes de aumento en los parámetros de escala e índice de posición para diferentes muestras en el entrenamiento. Esto tiene como objetivo hacer que el modelo sea más robusto a las diferentes diferencias relativas al interpolar directamente la longitud de contexto arbitraria en la inferencia. Los resultados experimentales exhaustivos en múltiples conjuntos de datos de referencia demuestran la efectividad de nuestro E²-LLM en tareas desafiantes de contexto largo.
A pesar de las capacidades generales de los grandes modelos de lenguaje preentrenados, estos se benefician consistentemente de una mayor adaptación para lograr mejor los comportamientos deseados. Sin embargo, ajustar estos modelos se ha vuelto cada vez más intensivo en recursos, o imposible cuando los pesos del modelo son privados. Introducimos el proxy-tuning, un algoritmo ligero en tiempo de decodificación que opera sobre modelos de lenguaje de caja negra para lograr el resultado de ajustar directamente el modelo, pero accediendo solo a sus predicciones sobre el vocabulario de salida. Nuestro método ajusta en su lugar un modelo de lenguaje más pequeño, luego aplica la diferencia entre las predicciones de los modelos pequeños ajustados y no ajustados para desplazar las predicciones originales del modelo base en la dirección del ajuste, manteniendo los beneficios del preentrenamiento a gran escala. En experimentos, cuando aplicamos proxy-tuning a Llama2-70B usando proxies de solo 7B de tamaño, podemos cerrar el 88% de la brecha entre Llama2-70B y su versión de chat realmente ajustada, cuando se evalúa en benchmarks de conocimiento, razonamiento y seguridad. Curiosamente, cuando se prueba en TruthfulQA, los modelos con proxy-tuning son en realidad más veraces que los modelos ajustados directamente, posiblemente porque la guía en tiempo de decodificación conserva mejor el conocimiento factual del modelo. Luego demostramos la generalidad del proxy-tuning aplicándolo para la adaptación de dominio en código y el ajuste específico de tareas en resolución de preguntas y problemas matemáticos. Nuestro trabajo demuestra el potencial de usar modelos de lenguaje pequeños ajustados para personalizar eficientemente modelos de lenguaje grandes, potencialmente propietarios, mediante guía en tiempo de decodificación.
Los modelos generativos han demostrado una capacidad notable para sintetizar texto, imágenes y videos de alta calidad. En el ámbito de la generación de videos, los modelos contemporáneos de texto a video exhiben capacidades impresionantes, creando videos visualmente impactantes. Sin embargo, evaluar dichos videos plantea desafíos significativos. La investigación actual emplea predominantemente métricas automatizadas como FVD, IS y CLIP Score. No obstante, estas métricas ofrecen un análisis incompleto, especialmente en la evaluación temporal del contenido del video, lo que las convierte en indicadores poco confiables de la verdadera calidad del video. Además, aunque los estudios con usuarios tienen el potencial de reflejar con precisión la percepción humana, se ven obstaculizados por su naturaleza intensiva en tiempo y laboriosa, con resultados que a menudo están sesgados por la subjetividad. En este artículo, investigamos las limitaciones inherentes a las métricas existentes e introducimos una nueva pipeline de evaluación, el Text-to-Video Score (T2VScore). Esta métrica integra dos criterios fundamentales: (1) Alineación Texto-Video, que examina la fidelidad del video en representar la descripción textual dada, y (2) Calidad del Video, que evalúa el nivel general de producción del video mediante un panel de expertos. Además, para evaluar las métricas propuestas y facilitar futuras mejoras, presentamos el conjunto de datos TVGE, que recopila juicios humanos sobre 2,543 videos generados de texto a video en los dos criterios mencionados. Los experimentos en el conjunto de datos TVGE demuestran la superioridad del T2VScore propuesto al ofrecer una mejor métrica para la generación de texto a video.
Se sabe que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) tienen una capacidad limitada de extrapolación más allá de su ventana de contexto preentrenada, lo que restringe su aplicación en tareas posteriores con entradas extensas. Estudios recientes han buscado extender la ventana de contexto de los LLMs modificando el método de codificación de posición conocido como rotary position embedding (RoPE), adoptado por modelos populares como LLaMA, PaLM y GPT-NeoX. Sin embargo, trabajos previos como Position Interpolation (PI) y YaRN son intensivos en recursos y carecen de experimentos comparativos para evaluar su aplicabilidad. En este trabajo, identificamos la necesidad inherente de que la entropía de atención de los LLMs (es decir, la entropía de la información de los puntajes de atención) mantenga estabilidad e introducimos una extensión novedosa de RoPE que combina el ajuste de la frecuencia base de RoPE y la escalación de los logits de atención para ayudar a los LLMs a adaptarse eficientemente a una ventana de contexto más amplia. Validamos la superioridad de nuestro método tanto en el rendimiento de ajuste fino como en la robustez en diferentes tamaños de ventana de contexto en diversas tareas que demandan contexto. Notablemente, nuestro método extiende la ventana de contexto de LLaMA-2-7B-Chat a 16,384 con solo 100 muestras y 6 pasos de entrenamiento, demostrando una eficiencia extraordinaria. Finalmente, también exploramos cómo las composiciones de datos y los planes de entrenamiento afectan la extensión de la ventana de contexto para tareas específicas posteriores, sugiriendo que el ajuste fino de LLMs con conversaciones extensas es un buen punto de partida. Publicamos nuestro código y datos de SFT en https://github.com/GAIR-NLP/Entropy-ABF.
En los últimos años, modelos de aprendizaje automático como DALL-E, Craiyon y Stable Diffusion han captado una atención significativa por su capacidad para generar imágenes de alta resolución a partir de descripciones concisas. Paralelamente, la computación cuántica está mostrando avances prometedores, especialmente en el aprendizaje automático cuántico, que aprovecha la mecánica cuántica para satisfacer los crecientes requisitos computacionales de los algoritmos tradicionales de aprendizaje automático. Este artículo explora la integración del aprendizaje automático cuántico y los circuitos cuánticos variacionales para mejorar la eficacia de los modelos de generación de imágenes basados en difusión. Específicamente, abordamos dos desafíos de los modelos de difusión clásicos: su baja velocidad de muestreo y los extensos requisitos de parámetros. Introducimos dos modelos de difusión cuántica y comparamos sus capacidades con sus contrapartes clásicas utilizando dígitos MNIST, Fashion MNIST y CIFAR-10. Nuestros modelos superan a los modelos clásicos con recuentos de parámetros similares en términos de las métricas de rendimiento FID, SSIM y PSNR. Además, presentamos una arquitectura de muestreo único unitario de modelo de consistencia que combina el procedimiento de difusión en un solo paso, permitiendo una generación rápida de imágenes en un solo paso.
A pesar de los últimos avances notables en modelado generativo, la generación eficiente de activos 3D de alta calidad a partir de indicaciones textuales sigue siendo una tarea difícil. Un desafío clave radica en la escasez de datos: los conjuntos de datos 3D más extensos abarcan apenas millones de activos, mientras que sus contrapartes 2D contienen miles de millones de pares texto-imagen. Para abordar esto, proponemos un enfoque novedoso que aprovecha el poder de los grandes modelos de difusión 2D preentrenados. Más específicamente, nuestro enfoque, HexaGen3D, ajusta un modelo preentrenado de texto a imagen para predecir conjuntamente 6 proyecciones ortográficas y el triplano latente correspondiente. Luego, decodificamos estos latentes para generar una malla texturizada. HexaGen3D no requiere optimización por muestra y puede inferir objetos de alta calidad y diversos a partir de indicaciones textuales en 7 segundos, ofreciendo un equilibrio significativamente mejor entre calidad y latencia en comparación con los enfoques existentes. Además, HexaGen3D demuestra una fuerte generalización a nuevos objetos o composiciones.