Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos tipo ChatGPT han revolucionado diversas aplicaciones en inteligencia artificial, desde la resumen y la codificación hasta la traducción, igualando o incluso superando el rendimiento humano. Sin embargo, el panorama actual carece de una pipeline de entrenamiento RLHF (Reinforcement Learning with Human Feedback) accesible, eficiente y rentable de extremo a extremo para estos potentes modelos, especialmente cuando se entrena a escala de miles de millones de parámetros. Este artículo presenta DeepSpeed-Chat, un sistema novedoso que democratiza el entrenamiento RLHF, haciéndolo accesible para la comunidad de IA. DeepSpeed-Chat ofrece tres capacidades clave: una experiencia de entrenamiento e inferencia fácil de usar para modelos tipo ChatGPT, una pipeline DeepSpeed-RLHF que replica el proceso de entrenamiento de InstructGPT, y un sistema robusto DeepSpeed-RLHF que combina diversas optimizaciones para el entrenamiento y la inferencia de manera unificada. El sistema ofrece una eficiencia y escalabilidad sin precedentes, permitiendo el entrenamiento de modelos con cientos de miles de millones de parámetros en un tiempo récord y a una fracción del costo. Con este avance, DeepSpeed-Chat allana el camino para un acceso más amplio al entrenamiento avanzado RLHF, incluso para científicos de datos con recursos limitados, fomentando así la innovación y el desarrollo continuo en el campo de la IA.
Las arquitecturas de mezcla dispersa de expertos (MoEs, por sus siglas en inglés) escalan la capacidad del modelo sin aumentar significativamente los costos de entrenamiento o inferencia. A pesar de su éxito, los MoEs presentan varios problemas: inestabilidad en el entrenamiento, descarte de tokens, incapacidad para escalar el número de expertos o ajuste fino ineficaz. En este trabajo, proponemos Soft MoE, un Transformer disperso completamente diferenciable que aborda estos desafíos, manteniendo los beneficios de los MoEs. Soft MoE realiza una asignación suave implícita al pasar diferentes combinaciones ponderadas de todos los tokens de entrada a cada experto. Como en otros trabajos de MoE, los expertos en Soft MoE solo procesan un subconjunto de los tokens (combinados), lo que permite una mayor capacidad del modelo con un menor costo de inferencia. En el contexto de reconocimiento visual, Soft MoE supera ampliamente a los Transformers estándar (ViTs) y a las variantes populares de MoE (Tokens Choice y Experts Choice). Por ejemplo, Soft MoE-Base/16 requiere 10.5 veces menos costo de inferencia (5.7 veces menos tiempo de ejecución) que ViT-Huge/14, mientras que iguala su rendimiento después de un entrenamiento similar. Soft MoE también escala bien: Soft MoE Huge/14 con 128 expertos en 16 capas MoE tiene más de 40 veces más parámetros que ViT Huge/14, mientras que el costo de tiempo de inferencia aumenta solo un 2%, y su rendimiento es sustancialmente mejor.
Si bien la manipulación de imágenes guiada por lenguaje ha logrado avances notables, el desafío de cómo instruir el proceso de manipulación para que refleje fielmente las intenciones humanas persiste. Una descripción precisa y completa de una tarea de manipulación utilizando lenguaje natural es laboriosa y, en ocasiones, incluso imposible, principalmente debido a la incertidumbre y ambigüedad inherentes presentes en las expresiones lingüísticas. ¿Es factible lograr la manipulación de imágenes sin recurrir a información lingüística externa de modalidad cruzada? Si esta posibilidad existe, la brecha de modalidad inherente se eliminaría sin esfuerzo. En este artículo, proponemos una novedosa metodología de manipulación, denominada ImageBrush, que aprende instrucciones visuales para una edición de imágenes más precisa. Nuestra idea clave es emplear un par de imágenes de transformación como instrucciones visuales, lo que no solo captura con precisión la intención humana, sino que también facilita la accesibilidad en escenarios del mundo real. Capturar instrucciones visuales es particularmente desafiante porque implica extraer las intenciones subyacentes únicamente a partir de demostraciones visuales y luego aplicar esta operación a una nueva imagen. Para abordar este desafío, formulamos el aprendizaje de instrucciones visuales como un problema de inpainting basado en difusión, donde la información contextual se explota completamente a través de un proceso iterativo de generación. Un codificador de indicaciones visuales se diseña cuidadosamente para mejorar la capacidad del modelo para descubrir la intención humana detrás de las instrucciones visuales. Experimentos extensos muestran que nuestro método genera resultados de manipulación atractivos que se ajustan a las transformaciones implicadas en las demostraciones. Además, nuestro modelo exhibe capacidades robustas de generalización en diversas tareas posteriores, como la transferencia de poses, la traducción de imágenes y el inpainting de video.
Nuestro enfoque, al que denominamos Embeddings for Language/Image-aligned X-Rays, o ELIXR, aprovecha un codificador de imágenes alineado con lenguaje combinado o injertado en un modelo de lenguaje grande (LLM) fijo, PaLM 2, para realizar una amplia gama de tareas. Entrenamos esta arquitectura ligera de adaptador utilizando imágenes emparejadas con informes radiológicos en texto libre del conjunto de datos MIMIC-CXR. ELIXR logró un rendimiento de vanguardia en la clasificación de rayos X de tórax (CXR) sin entrenamiento previo (AUC promedio de 0.850 en 13 hallazgos), clasificación de CXR con uso eficiente de datos (AUC promedio de 0.893 y 0.898 en cinco hallazgos (atelectasia, cardiomegalia, consolidación, derrame pleural y edema pulmonar) para el 1% (~2,200 imágenes) y el 10% (~22,000 imágenes) de datos de entrenamiento), y búsqueda semántica (0.76 de ganancia acumulativa descontada normalizada (NDCG) en diecinueve consultas, incluyendo recuperación perfecta en doce de ellas). En comparación con métodos existentes de uso eficiente de datos, como el aprendizaje contrastivo supervisado (SupCon), ELIXR requirió dos órdenes de magnitud menos de datos para alcanzar un rendimiento similar. ELIXR también mostró potencial en tareas de visión y lenguaje en CXR, demostrando precisiones generales del 58.7% y 62.5% en tareas de respuesta a preguntas visuales y aseguramiento de calidad de informes, respectivamente. Estos resultados sugieren que ELIXR es un enfoque robusto y versátil para la IA en CXR.
Motivados por el hecho de que los enfoques basados en DETR han establecido nuevos récords en los benchmarks de detección y segmentación de COCO, muchos esfuerzos recientes muestran un creciente interés en cómo mejorar aún más los enfoques basados en DETR mediante el preentrenamiento del Transformer de manera autosupervisada mientras se mantiene congelado el backbone. Algunos estudios ya han afirmado mejoras significativas en la precisión. En este artículo, examinamos más de cerca su metodología experimental y verificamos si sus enfoques siguen siendo efectivos en el estado del arte más reciente, como H-Deformable-DETR. Realizamos experimentos exhaustivos en tareas de detección de objetos en COCO para estudiar la influencia de la elección de los conjuntos de datos de preentrenamiento, la localización y los esquemas de generación de objetivos de clasificación. Lamentablemente, encontramos que el enfoque autosupervisado representativo anterior, como DETReg, no logra mejorar el rendimiento de los enfoques fuertes basados en DETR en regímenes de datos completos. Analizamos más a fondo las razones y descubrimos que simplemente combinar un predictor de cajas más preciso y el benchmark Objects365 puede mejorar significativamente los resultados en experimentos posteriores. Demostramos la efectividad de nuestro enfoque al lograr fuertes resultados de detección de objetos con un AP=59.3% en el conjunto de validación de COCO, lo que supera a H-Deformable-DETR + Swin-L en +1.4%. Por último, generamos una serie de conjuntos de datos sintéticos de preentrenamiento combinando los modelos más recientes de generación de subtítulos de imagen a texto (LLaVA) y modelos generativos de texto a imagen (SDXL). Cabe destacar que el preentrenamiento en estos conjuntos de datos sintéticos conduce a mejoras notables en el rendimiento de la detección de objetos. De cara al futuro, anticipamos ventajas sustanciales a través de la futura expansión del conjunto de datos sintéticos de preentrenamiento.
CLIP, como modelo fundamental de lenguaje visual, es ampliamente utilizado en la clasificación de imágenes zero-shot debido a su capacidad para comprender diversos conceptos visuales y descripciones en lenguaje natural. Sin embargo, cómo aprovechar plenamente las capacidades de comprensión sin precedentes, similares a las humanas, de CLIP para lograr una mejor clasificación zero-shot sigue siendo una pregunta abierta. Este artículo se inspira en el proceso de percepción visual humana: una visión moderna de la neurociencia sugiere que, al clasificar un objeto, los humanos primero infieren sus atributos independientes de la clase (por ejemplo, fondo y orientación) que ayudan a separar el objeto en primer plano del fondo, y luego toman decisiones basadas en esta información. Inspirados por esto, observamos que proporcionar a CLIP atributos contextuales mejora la clasificación zero-shot y mitiga la dependencia de características espurias. También observamos que CLIP mismo puede inferir razonablemente los atributos de una imagen. Con estas observaciones, proponemos un método de clasificación zero-shot en dos pasos y sin entrenamiento, llamado PerceptionCLIP. Dada una imagen, primero infiere atributos contextuales (por ejemplo, fondo) y luego realiza la clasificación del objeto condicionada a ellos. Nuestros experimentos muestran que PerceptionCLIP logra una mejor generalización, robustez grupal y mayor interpretabilidad. Por ejemplo, PerceptionCLIP con ViT-L/14 mejora la precisión del peor grupo en un 16.5% en el conjunto de datos Waterbirds y en un 3.5% en CelebA.