EvolveDirector: Abordando la Generación Avanzada de Texto a Imagen con Modelos de Visión-Lenguaje Grandes
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models
October 9, 2024
Autores: Rui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou
cs.AI
Resumen
Los avances recientes en modelos de generación han mostrado capacidades notables para producir contenido fantástico. Sin embargo, la mayoría de ellos se entrenan con datos propietarios de alta calidad, y algunos modelos retienen sus parámetros y solo ofrecen interfaces de programación de aplicaciones (APIs) accesibles, limitando sus beneficios para tareas posteriores. Para explorar la viabilidad de entrenar un modelo de generación de texto a imagen comparable a modelos avanzados utilizando recursos públicamente disponibles, presentamos EvolveDirector. Este marco interactúa con modelos avanzados a través de sus APIs públicas para obtener pares de datos texto-imagen y entrenar un modelo base. Nuestros experimentos con datos extensos indican que el modelo entrenado con datos generados por el modelo avanzado puede aproximar su capacidad de generación. Sin embargo, requiere muestras a gran escala de 10 millones o más. Esto conlleva gastos significativos en tiempo, recursos computacionales y especialmente los costos asociados con el uso de APIs de pago. Para abordar este problema, aprovechamos modelos pre-entrenados grandes de visión-lenguaje (VLMs) para guiar la evolución del modelo base. VLM evalúa continuamente el modelo base durante el entrenamiento y actualiza y perfecciona dinámicamente el conjunto de datos de entrenamiento mediante operaciones de discriminación, expansión, eliminación y mutación. Los resultados experimentales muestran que este paradigma reduce significativamente el volumen de datos requerido. Además, al acercarse a múltiples modelos avanzados, EvolveDirector puede seleccionar las mejores muestras generadas por ellos para aprender habilidades poderosas y equilibradas. Se demuestra que el modelo final entrenado, Edgen, supera a estos modelos avanzados. El código y los pesos del modelo están disponibles en https://github.com/showlab/EvolveDirector.
English
Recent advancements in generation models have showcased remarkable
capabilities in generating fantastic content. However, most of them are trained
on proprietary high-quality data, and some models withhold their parameters and
only provide accessible application programming interfaces (APIs), limiting
their benefits for downstream tasks. To explore the feasibility of training a
text-to-image generation model comparable to advanced models using publicly
available resources, we introduce EvolveDirector. This framework interacts with
advanced models through their public APIs to obtain text-image data pairs to
train a base model. Our experiments with extensive data indicate that the model
trained on generated data of the advanced model can approximate its generation
capability. However, it requires large-scale samples of 10 million or more.
This incurs significant expenses in time, computational resources, and
especially the costs associated with calling fee-based APIs. To address this
problem, we leverage pre-trained large vision-language models (VLMs) to guide
the evolution of the base model. VLM continuously evaluates the base model
during training and dynamically updates and refines the training dataset by the
discrimination, expansion, deletion, and mutation operations. Experimental
results show that this paradigm significantly reduces the required data volume.
Furthermore, when approaching multiple advanced models, EvolveDirector can
select the best samples generated by them to learn powerful and balanced
abilities. The final trained model Edgen is demonstrated to outperform these
advanced models. The code and model weights are available at
https://github.com/showlab/EvolveDirector.Summary
AI-Generated Summary