ЭволюцияДиректор: Подход к передовой генерации текста в изображение с помощью крупных моделей видео-языка
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models
October 9, 2024
Авторы: Rui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou
cs.AI
Аннотация
Недавние достижения в моделях генерации продемонстрировали выдающиеся возможности в создании фантастического контента. Однако большинство из них обучаются на собственных высококачественных данных, и некоторые модели удерживают свои параметры, предоставляя только доступные программные интерфейсы приложений (API), ограничивая тем самым их преимущества для последующих задач. Для изучения возможности обучения модели генерации текста в изображение, сравнимой с передовыми моделями, используя общедоступные ресурсы, мы представляем EvolveDirector. Этот фреймворк взаимодействует с передовыми моделями через их общедоступные API для получения пар данных текст-изображение для обучения базовой модели. Наши эксперименты с обширными данными показывают, что модель, обученная на сгенерированных данных передовой модели, способна приблизиться к ее возможностям в генерации. Однако для этого требуется обширный объем выборки в 10 миллионов и более. Это влечет значительные расходы по времени, вычислительным ресурсам и особенно затратам, связанным с вызовом платных API. Для решения этой проблемы мы используем предварительно обученные крупные модели видение-язык (VLM), чтобы направлять эволюцию базовой модели. VLM непрерывно оценивает базовую модель во время обучения и динамически обновляет и уточняет набор данных обучения с помощью операций дискриминации, расширения, удаления и мутации. Экспериментальные результаты показывают, что такая парадигма значительно сокращает необходимый объем данных. Более того, при приближении к нескольким передовым моделям EvolveDirector может выбирать лучшие образцы, сгенерированные ими, для изучения мощных и сбалансированных способностей. Финальная обученная модель Edgen продемонстрировала превосходство над этими передовыми моделями. Код и веса модели доступны по ссылке https://github.com/showlab/EvolveDirector.
English
Recent advancements in generation models have showcased remarkable
capabilities in generating fantastic content. However, most of them are trained
on proprietary high-quality data, and some models withhold their parameters and
only provide accessible application programming interfaces (APIs), limiting
their benefits for downstream tasks. To explore the feasibility of training a
text-to-image generation model comparable to advanced models using publicly
available resources, we introduce EvolveDirector. This framework interacts with
advanced models through their public APIs to obtain text-image data pairs to
train a base model. Our experiments with extensive data indicate that the model
trained on generated data of the advanced model can approximate its generation
capability. However, it requires large-scale samples of 10 million or more.
This incurs significant expenses in time, computational resources, and
especially the costs associated with calling fee-based APIs. To address this
problem, we leverage pre-trained large vision-language models (VLMs) to guide
the evolution of the base model. VLM continuously evaluates the base model
during training and dynamically updates and refines the training dataset by the
discrimination, expansion, deletion, and mutation operations. Experimental
results show that this paradigm significantly reduces the required data volume.
Furthermore, when approaching multiple advanced models, EvolveDirector can
select the best samples generated by them to learn powerful and balanced
abilities. The final trained model Edgen is demonstrated to outperform these
advanced models. The code and model weights are available at
https://github.com/showlab/EvolveDirector.Summary
AI-Generated Summary