EvolveDirector: Avvicinarsi alla Generazione Avanzata di Testo-immagine con Grandi Modelli Visione-Linguaggio
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models
October 9, 2024
Autori: Rui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou
cs.AI
Abstract
I recenti progressi nei modelli di generazione hanno mostrato notevoli capacità nel generare contenuti fantastici. Tuttavia, la maggior parte di essi è addestrata su dati proprietari di alta qualità, e alcuni modelli trattengono i loro parametri e forniscono solo interfacce di programmazione di applicazioni (API) accessibili, limitando i loro benefici per compiti successivi. Per esplorare la fattibilità di addestrare un modello di generazione testo-immagine comparabile ai modelli avanzati utilizzando risorse pubblicamente disponibili, presentiamo EvolveDirector. Questo framework interagisce con i modelli avanzati attraverso le loro API pubbliche per ottenere coppie di dati testo-immagine per addestrare un modello di base. I nostri esperimenti con un ampio set di dati indicano che il modello addestrato su dati generati dal modello avanzato può approssimare la sua capacità di generazione. Tuttavia, ciò richiede campioni su larga scala di 10 milioni o più. Ciò comporta significative spese in termini di tempo, risorse computazionali e soprattutto i costi associati alla chiamata di API a pagamento. Per affrontare questo problema, sfruttiamo modelli pre-addestrati di grandi dimensioni visione-linguaggio (VLM) per guidare l'evoluzione del modello di base. Il VLM valuta continuamente il modello di base durante l'addestramento e aggiorna e affina dinamicamente il set di dati di addestramento tramite operazioni di discriminazione, espansione, eliminazione e mutazione. I risultati sperimentali mostrano che questo paradigma riduce significativamente il volume di dati richiesto. Inoltre, avvicinandosi a più modelli avanzati, EvolveDirector può selezionare i migliori campioni generati da essi per apprendere abilità potenti ed equilibrate. Il modello addestrato finale Edgen dimostra di superare questi modelli avanzati. Il codice e i pesi del modello sono disponibili su https://github.com/showlab/EvolveDirector.
English
Recent advancements in generation models have showcased remarkable
capabilities in generating fantastic content. However, most of them are trained
on proprietary high-quality data, and some models withhold their parameters and
only provide accessible application programming interfaces (APIs), limiting
their benefits for downstream tasks. To explore the feasibility of training a
text-to-image generation model comparable to advanced models using publicly
available resources, we introduce EvolveDirector. This framework interacts with
advanced models through their public APIs to obtain text-image data pairs to
train a base model. Our experiments with extensive data indicate that the model
trained on generated data of the advanced model can approximate its generation
capability. However, it requires large-scale samples of 10 million or more.
This incurs significant expenses in time, computational resources, and
especially the costs associated with calling fee-based APIs. To address this
problem, we leverage pre-trained large vision-language models (VLMs) to guide
the evolution of the base model. VLM continuously evaluates the base model
during training and dynamically updates and refines the training dataset by the
discrimination, expansion, deletion, and mutation operations. Experimental
results show that this paradigm significantly reduces the required data volume.
Furthermore, when approaching multiple advanced models, EvolveDirector can
select the best samples generated by them to learn powerful and balanced
abilities. The final trained model Edgen is demonstrated to outperform these
advanced models. The code and model weights are available at
https://github.com/showlab/EvolveDirector.