EvolveDirector : Approche avancée de la génération de texte en image avec de grands modèles de vision-langage
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models
October 9, 2024
Auteurs: Rui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou
cs.AI
Résumé
Les récents progrès dans les modèles de génération ont mis en lumière des capacités remarquables à produire du contenu fantastique. Cependant, la plupart d'entre eux sont entraînés sur des données propriétaires de haute qualité, et certains modèles retiennent leurs paramètres et ne fournissent que des interfaces de programmation d'applications (API) accessibles, limitant ainsi leurs avantages pour les tâches en aval. Pour explorer la faisabilité de former un modèle de génération texte-image comparable aux modèles avancés en utilisant des ressources disponibles publiquement, nous introduisons EvolveDirector. Ce cadre interagit avec les modèles avancés via leurs API publiques pour obtenir des paires de données texte-image afin de former un modèle de base. Nos expériences avec des données étendues indiquent que le modèle formé sur des données générées par le modèle avancé peut approximer sa capacité de génération. Cependant, cela nécessite des échantillons à grande échelle de 10 millions ou plus. Cela entraîne des dépenses significatives en termes de temps, de ressources informatiques et surtout les coûts associés à l'utilisation d'API payantes. Pour résoudre ce problème, nous exploitons des modèles pré-entraînés de grande taille vision-langage (VLM) pour guider l'évolution du modèle de base. Le VLM évalue continuellement le modèle de base pendant l'entraînement et met à jour et affine dynamiquement l'ensemble de données d'entraînement par des opérations de discrimination, d'expansion, de suppression et de mutation. Les résultats expérimentaux montrent que ce paradigme réduit significativement le volume de données requis. De plus, lors de l'approche de plusieurs modèles avancés, EvolveDirector peut sélectionner les meilleurs échantillons générés par eux pour acquérir des capacités puissantes et équilibrées. Le modèle entraîné final, Edgen, est démontré comme surpassant ces modèles avancés. Le code et les poids du modèle sont disponibles sur https://github.com/showlab/EvolveDirector.
English
Recent advancements in generation models have showcased remarkable
capabilities in generating fantastic content. However, most of them are trained
on proprietary high-quality data, and some models withhold their parameters and
only provide accessible application programming interfaces (APIs), limiting
their benefits for downstream tasks. To explore the feasibility of training a
text-to-image generation model comparable to advanced models using publicly
available resources, we introduce EvolveDirector. This framework interacts with
advanced models through their public APIs to obtain text-image data pairs to
train a base model. Our experiments with extensive data indicate that the model
trained on generated data of the advanced model can approximate its generation
capability. However, it requires large-scale samples of 10 million or more.
This incurs significant expenses in time, computational resources, and
especially the costs associated with calling fee-based APIs. To address this
problem, we leverage pre-trained large vision-language models (VLMs) to guide
the evolution of the base model. VLM continuously evaluates the base model
during training and dynamically updates and refines the training dataset by the
discrimination, expansion, deletion, and mutation operations. Experimental
results show that this paradigm significantly reduces the required data volume.
Furthermore, when approaching multiple advanced models, EvolveDirector can
select the best samples generated by them to learn powerful and balanced
abilities. The final trained model Edgen is demonstrated to outperform these
advanced models. The code and model weights are available at
https://github.com/showlab/EvolveDirector.Summary
AI-Generated Summary