Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos más avanzados de texto a imagen (T2I) requieren costos de entrenamiento significativos (por ejemplo, millones de horas de GPU), lo que obstaculiza seriamente la innovación fundamental para la comunidad de AIGC (Generación de Contenido con Inteligencia Artificial) y aumenta las emisiones de CO2. Este artículo presenta PIXART-alpha, un modelo de difusión T2I basado en Transformers cuya calidad de generación de imágenes compite con los generadores de imágenes más avanzados (por ejemplo, Imagen, SDXL e incluso Midjourney), alcanzando estándares cercanos a aplicaciones comerciales. Además, soporta la síntesis de imágenes de alta resolución hasta 1024px con un bajo costo de entrenamiento, como se muestra en las Figuras 1 y 2. Para lograr este objetivo, se proponen tres diseños principales: (1) Descomposición de la estrategia de entrenamiento: Diseñamos tres pasos de entrenamiento distintos que optimizan por separado la dependencia de píxeles, la alineación texto-imagen y la calidad estética de la imagen; (2) Transformer T2I eficiente: Incorporamos módulos de atención cruzada en el Transformer de Difusión (DiT) para inyectar condiciones de texto y simplificar la rama intensiva en cómputo de condiciones de clase; (3) Datos altamente informativos: Enfatizamos la importancia de la densidad conceptual en pares texto-imagen y aprovechamos un gran modelo de Visión-Lenguaje para etiquetar automáticamente pseudo-leyendas densas que ayudan al aprendizaje de la alineación texto-imagen. Como resultado, la velocidad de entrenamiento de PIXART-alpha supera notablemente a los modelos T2I de gran escala existentes; por ejemplo, PIXART-alpha solo requiere el 10.8% del tiempo de entrenamiento de Stable Diffusion v1.5 (675 vs. 6,250 días de GPU A100), ahorrando casi \$300,000 (26,000 vs. \$320,000) y reduciendo un 90% las emisiones de CO2. Además, en comparación con un modelo SOTA más grande, RAPHAEL, nuestro costo de entrenamiento es apenas el 1%. Experimentos extensos demuestran que PIXART-alpha sobresale en calidad de imagen, arte y control semántico. Esperamos que PIXART-alpha brinde nuevas perspectivas a la comunidad de AIGC y a las startups para acelerar la construcción de sus propios modelos generativos de alta calidad y bajo costo desde cero.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en tareas de generación de texto abierto. Sin embargo, la naturaleza inherentemente abierta de estas tareas implica que siempre hay margen para mejorar la calidad de las respuestas del modelo. Para abordar este desafío, se han propuesto diversos enfoques para mejorar el rendimiento de los LLMs. Ha habido un creciente interés en permitir que los LLMs se auto-mejoren en la calidad de sus respuestas, reduciendo así la dependencia de extensos esfuerzos de anotación humana para recopilar datos de entrenamiento diversos y de alta calidad. Recientemente, los métodos basados en "prompting" han sido ampliamente explorados entre los métodos de auto-mejora debido a su efectividad, eficiencia y conveniencia. Sin embargo, estos métodos suelen requerir rúbricas explícitas y detalladas como entradas para los LLMs. Es costoso y desafiante derivar y proporcionar manualmente todas las rúbricas necesarias para un objetivo complejo de mejora en el mundo real (por ejemplo, ser más útil y menos dañino). Para ello, proponemos un marco de Auto-MejoRa ImPlícita (PIT, por sus siglas en inglés) que aprende implícitamente el objetivo de mejora a partir de datos de preferencias humanas. PIT solo requiere datos de preferencias que se utilizan para entrenar modelos de recompensa sin esfuerzos humanos adicionales. Específicamente, reformulamos el objetivo de entrenamiento del Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés): en lugar de maximizar la calidad de la respuesta para una entrada dada, maximizamos la brecha de calidad de la respuesta condicionada a una respuesta de referencia. De esta manera, PIT se entrena implícitamente con el objetivo de mejorar la alineación con las preferencias humanas. Los experimentos en dos conjuntos de datos del mundo real y uno sintético muestran que nuestro método supera significativamente a los métodos basados en "prompting".
Los modelos generativos de difusión proporcionan fuertes priors para la generación de texto a imagen y, por lo tanto, sirven como base para tareas de generación condicional como la edición, restauración y superresolución de imágenes. Sin embargo, una limitación importante de los modelos de difusión es su lento tiempo de muestreo. Para abordar este desafío, presentamos un novedoso método de destilación condicional diseñado para complementar los priors de difusión con la ayuda de condiciones de imagen, permitiendo un muestreo condicional con muy pocos pasos. Destilamos directamente el preentrenamiento no condicional en una sola etapa mediante aprendizaje conjunto, simplificando en gran medida los procedimientos anteriores de dos etapas que involucraban tanto la destilación como el ajuste fino condicional por separado. Además, nuestro método permite un nuevo mecanismo de destilación eficiente en parámetros que destila cada tarea con solo un pequeño número de parámetros adicionales combinados con el backbone no condicional compartido y congelado. Los experimentos en múltiples tareas, incluyendo superresolución, edición de imágenes y generación de imagen a partir de profundidad, demuestran que nuestro método supera a las técnicas de destilación existentes para el mismo tiempo de muestreo. Notablemente, nuestro método es la primera estrategia de destilación que puede igualar el rendimiento de los modelos de difusión condicional ajustados finamente, que son mucho más lentos.