EvolveDirector: Het benaderen van geavanceerde tekst-naar-afbeelding generatie met grote visie-taal modellen
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models
October 9, 2024
Auteurs: Rui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou
cs.AI
Samenvatting
Recente ontwikkelingen in generatiemodellen hebben opmerkelijke capaciteiten aangetoond in het genereren van fantastische inhoud. Echter, de meeste van hen worden getraind op eigen hoogwaardige gegevens, en sommige modellen houden hun parameters achter en bieden alleen toegankelijke toepassingsprogrammeerinterfaces (API's), waardoor hun voordelen voor downstream taken beperkt zijn. Om de haalbaarheid te onderzoeken van het trainen van een tekst-naar-afbeelding generatiemodel vergelijkbaar met geavanceerde modellen met behulp van openbaar beschikbare bronnen, introduceren we EvolveDirector. Dit framework communiceert met geavanceerde modellen via hun openbare API's om tekst-afbeelding gegevensparen te verkrijgen om een basismodel te trainen. Onze experimenten met uitgebreide gegevens geven aan dat het model dat is getraind op gegenereerde gegevens van het geavanceerde model, in staat is om de generatiecapaciteit ervan te benaderen. Echter, hiervoor zijn grote steekproeven van 10 miljoen of meer nodig. Dit brengt aanzienlijke kosten met zich mee op het gebied van tijd, rekenkracht en vooral de kosten die gepaard gaan met het aanroepen van op kosten gebaseerde API's. Om dit probleem aan te pakken, maken we gebruik van vooraf getrainde grote visie-taalmodellen (VLM's) om de evolutie van het basismodel te begeleiden. VLM evalueert continu het basismodel tijdens de training en werkt dynamisch de training dataset bij door middel van discriminatie-, uitbreidings-, verwijderings- en mutatie-operaties. Experimentele resultaten tonen aan dat dit paradigma het vereiste gegevensvolume aanzienlijk vermindert. Bovendien kan EvolveDirector, bij het benaderen van meerdere geavanceerde modellen, de beste monsters selecteren die door hen zijn gegenereerd om krachtige en evenwichtige capaciteiten te leren. Het uiteindelijk getrainde model Edgen presteert beter dan deze geavanceerde modellen. De code en modelgewichten zijn beschikbaar op https://github.com/showlab/EvolveDirector.
English
Recent advancements in generation models have showcased remarkable
capabilities in generating fantastic content. However, most of them are trained
on proprietary high-quality data, and some models withhold their parameters and
only provide accessible application programming interfaces (APIs), limiting
their benefits for downstream tasks. To explore the feasibility of training a
text-to-image generation model comparable to advanced models using publicly
available resources, we introduce EvolveDirector. This framework interacts with
advanced models through their public APIs to obtain text-image data pairs to
train a base model. Our experiments with extensive data indicate that the model
trained on generated data of the advanced model can approximate its generation
capability. However, it requires large-scale samples of 10 million or more.
This incurs significant expenses in time, computational resources, and
especially the costs associated with calling fee-based APIs. To address this
problem, we leverage pre-trained large vision-language models (VLMs) to guide
the evolution of the base model. VLM continuously evaluates the base model
during training and dynamically updates and refines the training dataset by the
discrimination, expansion, deletion, and mutation operations. Experimental
results show that this paradigm significantly reduces the required data volume.
Furthermore, when approaching multiple advanced models, EvolveDirector can
select the best samples generated by them to learn powerful and balanced
abilities. The final trained model Edgen is demonstrated to outperform these
advanced models. The code and model weights are available at
https://github.com/showlab/EvolveDirector.Summary
AI-Generated Summary