EvolveDirector: Abordando a Geração Avançada de Texto para Imagem com Modelos de Visão-Linguagem de Grande Escala
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models
October 9, 2024
Autores: Rui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou
cs.AI
Resumo
Os avanços recentes em modelos de geração têm demonstrado capacidades notáveis na criação de conteúdo fantástico. No entanto, a maioria deles é treinada em dados proprietários de alta qualidade, e alguns modelos retêm seus parâmetros, disponibilizando apenas interfaces de programação de aplicativos (APIs) acessíveis, limitando seus benefícios para tarefas subsequentes. Para explorar a viabilidade de treinar um modelo de geração de texto para imagem comparável aos modelos avançados usando recursos publicamente disponíveis, apresentamos o EvolveDirector. Este framework interage com modelos avançados por meio de suas APIs públicas para obter pares de dados texto-imagem para treinar um modelo base. Nossos experimentos com dados extensivos indicam que o modelo treinado em dados gerados pelo modelo avançado pode se aproximar de sua capacidade de geração. No entanto, isso requer amostras em larga escala de 10 milhões ou mais. Isso acarreta despesas significativas em tempo, recursos computacionais e especialmente os custos associados à chamada de APIs pagas. Para lidar com esse problema, aproveitamos modelos pré-treinados de visão-linguagem (VLMs) de grande escala para orientar a evolução do modelo base. O VLM avalia continuamente o modelo base durante o treinamento e atualiza e refina dinamicamente o conjunto de dados de treinamento por meio de operações de discriminação, expansão, exclusão e mutação. Resultados experimentais mostram que esse paradigma reduz significativamente o volume de dados necessário. Além disso, ao se aproximar de vários modelos avançados, o EvolveDirector pode selecionar as melhores amostras geradas por eles para aprender habilidades poderosas e equilibradas. O modelo treinado final, Edgen, é demonstrado superar esses modelos avançados. O código e os pesos do modelo estão disponíveis em https://github.com/showlab/EvolveDirector.
English
Recent advancements in generation models have showcased remarkable
capabilities in generating fantastic content. However, most of them are trained
on proprietary high-quality data, and some models withhold their parameters and
only provide accessible application programming interfaces (APIs), limiting
their benefits for downstream tasks. To explore the feasibility of training a
text-to-image generation model comparable to advanced models using publicly
available resources, we introduce EvolveDirector. This framework interacts with
advanced models through their public APIs to obtain text-image data pairs to
train a base model. Our experiments with extensive data indicate that the model
trained on generated data of the advanced model can approximate its generation
capability. However, it requires large-scale samples of 10 million or more.
This incurs significant expenses in time, computational resources, and
especially the costs associated with calling fee-based APIs. To address this
problem, we leverage pre-trained large vision-language models (VLMs) to guide
the evolution of the base model. VLM continuously evaluates the base model
during training and dynamically updates and refines the training dataset by the
discrimination, expansion, deletion, and mutation operations. Experimental
results show that this paradigm significantly reduces the required data volume.
Furthermore, when approaching multiple advanced models, EvolveDirector can
select the best samples generated by them to learn powerful and balanced
abilities. The final trained model Edgen is demonstrated to outperform these
advanced models. The code and model weights are available at
https://github.com/showlab/EvolveDirector.Summary
AI-Generated Summary