EvolveDirector: Het benaderen van geavanceerde tekst-naar-afbeelding generatie met grote visie-taal modellen

Samenvatting

Recente ontwikkelingen in generatiemodellen hebben opmerkelijke capaciteiten aangetoond in het genereren van fantastische inhoud. Echter, de meeste van hen worden getraind op eigen hoogwaardige gegevens, en sommige modellen houden hun parameters achter en bieden alleen toegankelijke toepassingsprogrammeerinterfaces (API's), waardoor hun voordelen voor downstream taken beperkt zijn. Om de haalbaarheid te onderzoeken van het trainen van een tekst-naar-afbeelding generatiemodel vergelijkbaar met geavanceerde modellen met behulp van openbaar beschikbare bronnen, introduceren we EvolveDirector. Dit framework communiceert met geavanceerde modellen via hun openbare API's om tekst-afbeelding gegevensparen te verkrijgen om een basismodel te trainen. Onze experimenten met uitgebreide gegevens geven aan dat het model dat is getraind op gegenereerde gegevens van het geavanceerde model, in staat is om de generatiecapaciteit ervan te benaderen. Echter, hiervoor zijn grote steekproeven van 10 miljoen of meer nodig. Dit brengt aanzienlijke kosten met zich mee op het gebied van tijd, rekenkracht en vooral de kosten die gepaard gaan met het aanroepen van op kosten gebaseerde API's. Om dit probleem aan te pakken, maken we gebruik van vooraf getrainde grote visie-taalmodellen (VLM's) om de evolutie van het basismodel te begeleiden. VLM evalueert continu het basismodel tijdens de training en werkt dynamisch de training dataset bij door middel van discriminatie-, uitbreidings-, verwijderings- en mutatie-operaties. Experimentele resultaten tonen aan dat dit paradigma het vereiste gegevensvolume aanzienlijk vermindert. Bovendien kan EvolveDirector, bij het benaderen van meerdere geavanceerde modellen, de beste monsters selecteren die door hen zijn gegenereerd om krachtige en evenwichtige capaciteiten te leren. Het uiteindelijk getrainde model Edgen presteert beter dan deze geavanceerde modellen. De code en modelgewichten zijn beschikbaar op https://github.com/showlab/EvolveDirector.

English

Recent advancements in generation models have showcased remarkable capabilities in generating fantastic content. However, most of them are trained on proprietary high-quality data, and some models withhold their parameters and only provide accessible application programming interfaces (APIs), limiting their benefits for downstream tasks. To explore the feasibility of training a text-to-image generation model comparable to advanced models using publicly available resources, we introduce EvolveDirector. This framework interacts with advanced models through their public APIs to obtain text-image data pairs to train a base model. Our experiments with extensive data indicate that the model trained on generated data of the advanced model can approximate its generation capability. However, it requires large-scale samples of 10 million or more. This incurs significant expenses in time, computational resources, and especially the costs associated with calling fee-based APIs. To address this problem, we leverage pre-trained large vision-language models (VLMs) to guide the evolution of the base model. VLM continuously evaluates the base model during training and dynamically updates and refines the training dataset by the discrimination, expansion, deletion, and mutation operations. Experimental results show that this paradigm significantly reduces the required data volume. Furthermore, when approaching multiple advanced models, EvolveDirector can select the best samples generated by them to learn powerful and balanced abilities. The final trained model Edgen is demonstrated to outperform these advanced models. The code and model weights are available at https://github.com/showlab/EvolveDirector.

EvolveDirector: Het benaderen van geavanceerde tekst-naar-afbeelding generatie met grote visie-taal modellen

EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

Samenvatting

Support