EvolveDirector: Annäherung an die fortschrittliche Text-zu-Bild-Generierung mit großen Vision-Sprach-Modellen
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models
October 9, 2024
Autoren: Rui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou
cs.AI
Zusammenfassung
In den letzten Fortschritten bei Generierungsmodellen wurden bemerkenswerte Fähigkeiten bei der Erzeugung fantastischer Inhalte gezeigt. Allerdings werden die meisten von ihnen mit proprietären hochwertigen Daten trainiert, und einige Modelle behalten ihre Parameter bei und stellen nur zugängliche Anwendungsprogrammierschnittstellen (APIs) zur Verfügung, was ihre Vorteile für nachgelagerte Aufgaben einschränkt. Um die Machbarkeit des Trainings eines Text-zu-Bild-Generierungsmodells zu untersuchen, das mit fortschrittlichen Modellen vergleichbar ist, unter Verwendung öffentlich verfügbarer Ressourcen, stellen wir EvolveDirector vor. Dieses Framework interagiert mit fortschrittlichen Modellen über ihre öffentlichen APIs, um Text-Bild-Datenpaare zu erhalten, mit denen ein Basismodell trainiert wird. Unsere Experimente mit umfangreichen Daten zeigen, dass das Modell, das mit generierten Daten des fortschrittlichen Modells trainiert wurde, dessen Generierungsfähigkeit approximieren kann. Es erfordert jedoch eine große Anzahl von Stichproben von 10 Millionen oder mehr. Dies verursacht erhebliche Ausgaben in Bezug auf Zeit, Rechenressourcen und insbesondere die Kosten, die mit gebührenpflichtigen APIs verbunden sind. Um dieses Problem anzugehen, nutzen wir vorab trainierte große Vision-Sprach-Modelle (VLMs), um die Evolution des Basismodells zu steuern. VLM bewertet kontinuierlich das Basismodell während des Trainings und aktualisiert und verfeinert das Trainingsdatenset dynamisch durch Diskriminierungs-, Erweiterungs-, Lösch- und Mutationsoperationen. Experimentelle Ergebnisse zeigen, dass dieses Paradigma den erforderlichen Datenumfang signifikant reduziert. Darüber hinaus kann EvolveDirector beim Annähern an mehrere fortschrittliche Modelle die besten von ihnen generierten Proben auswählen, um leistungsstarke und ausgewogene Fähigkeiten zu erlernen. Das endgültig trainierte Modell Edgen übertrifft diese fortschrittlichen Modelle. Der Code und die Modellgewichte sind unter https://github.com/showlab/EvolveDirector verfügbar.
English
Recent advancements in generation models have showcased remarkable
capabilities in generating fantastic content. However, most of them are trained
on proprietary high-quality data, and some models withhold their parameters and
only provide accessible application programming interfaces (APIs), limiting
their benefits for downstream tasks. To explore the feasibility of training a
text-to-image generation model comparable to advanced models using publicly
available resources, we introduce EvolveDirector. This framework interacts with
advanced models through their public APIs to obtain text-image data pairs to
train a base model. Our experiments with extensive data indicate that the model
trained on generated data of the advanced model can approximate its generation
capability. However, it requires large-scale samples of 10 million or more.
This incurs significant expenses in time, computational resources, and
especially the costs associated with calling fee-based APIs. To address this
problem, we leverage pre-trained large vision-language models (VLMs) to guide
the evolution of the base model. VLM continuously evaluates the base model
during training and dynamically updates and refines the training dataset by the
discrimination, expansion, deletion, and mutation operations. Experimental
results show that this paradigm significantly reduces the required data volume.
Furthermore, when approaching multiple advanced models, EvolveDirector can
select the best samples generated by them to learn powerful and balanced
abilities. The final trained model Edgen is demonstrated to outperform these
advanced models. The code and model weights are available at
https://github.com/showlab/EvolveDirector.Summary
AI-Generated Summary