Artículos de investigación en IA seleccionados diariamente con traducciones
El aprendizaje contrastivo ha surgido como un método transformador para aprender representaciones visuales efectivas mediante la alineación de incrustaciones de imágenes y texto. Sin embargo, el cálculo de similitud por pares en la función de pérdida contrastiva entre pares de imágenes y texto presenta desafíos computacionales. Este artículo presenta un novedoso preentrenamiento débilmente supervisado de modelos de visión en datos de imagen-texto a escala web. El método propuesto reformula el preentrenamiento en datos de imagen-texto como una tarea de clasificación. En consecuencia, elimina la necesidad de cálculos de similitud por pares en la pérdida contrastiva, logrando una notable aceleración de 2.7 veces en la velocidad de entrenamiento en comparación con el aprendizaje contrastivo en datos a escala web. A través de extensos experimentos que abarcan diversas tareas de visión, incluyendo detección y segmentación, demostramos que el método propuesto mantiene una alta calidad de representación. Nuestro código fuente, junto con los pesos de los modelos preentrenados y las recetas de entrenamiento, está disponible en https://github.com/apple/corenet.
Proponemos Pure and Lightning ID customization (PuLID), un novedoso método de personalización de ID sin ajuste para la generación de texto a imagen. Al incorporar una rama Lightning T2I junto con una estándar de difusión, PuLID introduce tanto una pérdida de alineación contrastiva como una pérdida de ID precisa, minimizando la disrupción del modelo original y garantizando una alta fidelidad de ID. Los experimentos muestran que PuLID logra un rendimiento superior tanto en fidelidad de ID como en capacidad de edición. Otra propiedad atractiva de PuLID es que los elementos de la imagen (por ejemplo, fondo, iluminación, composición y estilo) antes y después de la inserción del ID se mantienen lo más consistentes posible. Los códigos y modelos estarán disponibles en https://github.com/ToTheBeginning/PuLID.
El éxito del preentrenamiento contrastivo de lenguaje-imagen (CLIP) depende de la supervisión proveniente del emparejamiento entre imágenes y descripciones, que tiende a ser ruidoso en datos obtenidos de la web. Presentamos Mezcla de Expertos en Datos (MoDE) y aprendemos un sistema de expertos en datos CLIP mediante clustering. Cada experto en datos se entrena en un clúster de datos, siendo menos sensible a los ruidos de falsos negativos en otros clústeres. En el momento de la inferencia, combinamos sus salidas aplicando pesos determinados a través de la correlación entre los metadatos de la tarea y las condiciones del clúster. Para estimar la correlación con precisión, las muestras en un clúster deben ser semánticamente similares, pero el número de expertos en datos aún debe ser razonable para el entrenamiento y la inferencia. Por ello, consideramos la ontología en el lenguaje humano y proponemos utilizar centros de clústeres de grano fino para representar cada experto en datos a un nivel de grano grueso. Los estudios experimentales muestran que cuatro expertos en datos CLIP en ViT-B/16 superan al ViT-L/14 de OpenAI CLIP y OpenCLIP en la clasificación de imágenes zero-shot, pero con un costo de entrenamiento menor (<35%). Mientras tanto, MoDE puede entrenar a todos los expertos en datos de manera asíncrona y puede incluir de manera flexible nuevos expertos en datos. El código está disponible en https://github.com/facebookresearch/MetaCLIP/tree/main/mode.
El rápido desarrollo de los modelos de difusión ha impulsado diversas aplicaciones. En particular, la generación de imágenes a partir de texto que preserva la identidad (ID-T2I) ha recibido una atención significativa debido a su amplia gama de escenarios de aplicación, como retratos con IA y publicidad. Aunque los métodos existentes de ID-T2I han demostrado resultados impresionantes, persisten varios desafíos clave: (1) Es difícil mantener con precisión las características de identidad de los retratos de referencia, (2) Las imágenes generadas carecen de atractivo estético, especialmente al forzar la retención de la identidad, y (3) Existe una limitación que no permite ser compatible simultáneamente con métodos basados en LoRA y Adapter. Para abordar estos problemas, presentamos ID-Aligner, un marco de aprendizaje por retroalimentación general para mejorar el rendimiento de ID-T2I. Para resolver la pérdida de características de identidad, introducimos un ajuste fino basado en recompensas de consistencia de identidad, utilizando la retroalimentación de modelos de detección y reconocimiento facial para mejorar la preservación de la identidad generada. Además, proponemos un ajuste fino basado en recompensas estéticas de identidad, aprovechando recompensas de datos de preferencia anotados por humanos y retroalimentación automática sobre la generación de estructuras de personajes para proporcionar señales de ajuste estético. Gracias a su marco universal de ajuste fino por retroalimentación, nuestro método puede aplicarse fácilmente tanto a modelos LoRA como Adapter, logrando mejoras de rendimiento consistentes. Experimentos exhaustivos en los modelos de difusión SD1.5 y SDXL validan la efectividad de nuestro enfoque. Página del proyecto: \url{https://idaligner.github.io/}
El surgimiento de los modelos de difusión ha impulsado significativamente el progreso en la generación de imágenes y videos. Recientemente, se han realizado algunos esfuerzos en la generación controlada de videos, incluyendo la generación de texto a video y el control del movimiento en videos, entre los cuales el control del movimiento de la cámara es un tema importante. Sin embargo, los métodos existentes de control del movimiento de la cámara dependen del entrenamiento de un módulo temporal de cámara y requieren recursos computacionales sustanciales debido a la gran cantidad de parámetros en los modelos de generación de videos. Además, los métodos existentes predefinen los tipos de movimiento de la cámara durante el entrenamiento, lo que limita su flexibilidad en el control de la cámara. Por lo tanto, para reducir los costos de entrenamiento y lograr un control flexible de la cámara, proponemos COMD, un novedoso modelo de transferencia de movimiento en videos sin necesidad de entrenamiento, que desacopla los movimientos de la cámara y los movimientos de los objetos en los videos fuente y transfiere los movimientos de la cámara extraídos a nuevos videos. Primero, proponemos un método de desacoplamiento de movimiento de la cámara en una sola toma para extraer el movimiento de la cámara de un único video fuente, que separa los objetos en movimiento del fondo y estima el movimiento de la cámara en la región de los objetos en movimiento basándose en el movimiento del fondo mediante la resolución de una ecuación de Poisson. Además, proponemos un método de desacoplamiento de movimiento de la cámara en pocas tomas para extraer el movimiento común de la cámara de múltiples videos con movimientos de cámara similares, que emplea una técnica de agrupación basada en ventanas para extraer las características comunes en los mapas de atención temporal de múltiples videos. Finalmente, proponemos un método de combinación de movimientos para combinar diferentes tipos de movimientos de la cámara, permitiendo a nuestro modelo un control de la cámara más controlable y flexible. Experimentos extensivos demuestran que nuestro enfoque sin entrenamiento puede desacoplar efectivamente el movimiento cámara-objeto y aplicar el movimiento de la cámara desacoplado a una amplia gama de tareas de generación controlada de videos, logrando un control flexible y diverso del movimiento de la cámara.
Los modelos de difusión han logrado avances significativos en tareas de síntesis guiada por texto. Sin embargo, la edición de imágenes proporcionadas por el usuario sigue siendo un desafío, ya que el espacio de entrada de ruido de alta dimensión de los modelos de difusión no es naturalmente adecuado para la inversión de imágenes o la edición espacial. En este trabajo, proponemos una representación de imágenes que fomenta la edición espacial de imágenes de entrada utilizando un modelo de difusión. Concretamente, aprendemos a codificar una entrada en "elementos de imagen" que pueden reconstruir fielmente una imagen de entrada. Estos elementos pueden ser editados intuitivamente por un usuario y son decodificados por un modelo de difusión en imágenes realistas. Mostramos la efectividad de nuestra representación en diversas tareas de edición de imágenes, como el cambio de tamaño de objetos, reordenamiento, arrastre, desoclusión, eliminación, variación y composición de imágenes. Página del proyecto: https://jitengmu.github.io/Editable_Image_Elements/
El matteo humano es una tarea fundamental en el procesamiento de imágenes y videos, donde se extraen los píxeles del primer plano humano de la entrada. Trabajos previos han mejorado la precisión mediante guías adicionales o han mejorado la consistencia temporal de una sola instancia a lo largo de los fotogramas. Proponemos un nuevo marco llamado MaGGIe, Masked Guided Gradual Human Instance Matting, que predice progresivamente los mattes alfa para cada instancia humana mientras mantiene el costo computacional, la precisión y la consistencia. Nuestro método aprovecha arquitecturas modernas, incluyendo la atención de transformadores y la convolución dispersa, para generar todos los mattes de instancia simultáneamente sin aumentar excesivamente la memoria y la latencia. Aunque mantiene costos de inferencia constantes en escenarios de múltiples instancias, nuestro marco logra un rendimiento robusto y versátil en nuestros nuevos benchmarks sintetizados. Con benchmarks de matteo de imágenes y videos de mayor calidad, se introduce un enfoque novedoso de síntesis multi-instancia a partir de fuentes disponibles públicamente para aumentar la generalización de los modelos en escenarios del mundo real.
La decodificación especulativa ha surgido como un método poderoso para mejorar la latencia y el rendimiento al alojar modelos de lenguaje grandes. Sin embargo, la mayoría de las implementaciones existentes se centran en generar una única secuencia. Las aplicaciones de IA generativa del mundo real a menudo requieren múltiples respuestas, y cómo realizar la decodificación especulativa en un entorno por lotes mientras se preservan sus beneficios de latencia plantea desafíos no triviales. Este artículo describe un sistema de decodificación especulativa por lotes que establece un nuevo estado del arte en la latencia de generación de múltiples secuencias y que demuestra una utilización superior de la GPU, así como la calidad de las generaciones dentro de un límite de tiempo. Por ejemplo, para un modelo de 7.8B de tamaño en una sola GPU A100 y con un tamaño de lote de 8, cada secuencia se genera a una velocidad promedio de 5.8 ms por token, con un rendimiento general de 1.1K tokens por segundo. Estos resultados representan una latencia de vanguardia y una aceleración de 2.15X sobre la decodificación regular optimizada. Dentro de un límite de tiempo en el que la decodificación regular no finaliza, nuestro sistema es capaz de generar secuencias con un HumanEval Pass@First del 43% y un Pass@All del 61%, superando ampliamente lo que es factible con la decodificación especulativa de una sola secuencia. Nuestra utilización máxima de la GPU durante la decodificación alcanza hasta un 15.8%, más de 3X la más alta de la decodificación regular y alrededor de 10X la de la decodificación especulativa de una sola secuencia.
Los enfoques de aprendizaje en contexto (ICL, por sus siglas en inglés) suelen aprovechar el prompting para condicionar la generación de modelos de lenguaje de solo decodificador en función de información de referencia. El procesamiento justo a tiempo de un contexto es ineficiente debido al costo cuadrático de las operaciones de autoatención, por lo que el almacenamiento en caché es deseable. Sin embargo, almacenar en caché los estados de los transformadores puede requerir fácilmente casi tanto espacio como los parámetros del modelo. Cuando el contexto correcto no se conoce de antemano, almacenar en caché el ICL puede ser un desafío. Este trabajo aborda estas limitaciones introduciendo modelos que, inspirados en la arquitectura codificador-decodificador, utilizan atención cruzada para condicionar la generación en texto de referencia sin necesidad del prompt. Más precisamente, aprovechamos modelos preentrenados de solo decodificador y solo entrenamos un pequeño número de capas adicionales. Utilizamos la tarea de preguntas y respuestas (QA) como banco de pruebas para evaluar la capacidad de nuestros modelos para realizar generación condicional y observamos que superan al ICL, son comparables a los modelos de lenguaje grandes (LLM) ajustados mediante prompting, y reducen drásticamente la huella de espacio en comparación con el almacenamiento estándar de claves-valores (KV caching) en dos órdenes de magnitud.