EvolveDirector: 大規模なビジョン言語モデルを用いた高度なテキストから画像生成のアプローチ
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models
October 9, 2024
著者: Rui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou
cs.AI
要旨
最近の生成モデルの進歩により、素晴らしいコンテンツを生成する驚異的な能力が示されています。しかし、ほとんどのモデルは独自の高品質データで訓練されており、一部のモデルはパラメータを保持し、アクセス可能なアプリケーションプログラミングインタフェース(API)のみを提供しており、下流のタスクに対する利点が制限されています。公開されているリソースを使用して先進的なモデルに匹敵するテキストから画像を生成するモデルの訓練の実現可能性を探るために、EvolveDirectorを紹介します。このフレームワークは、公開APIを介して先進的なモデルとやり取りし、テキスト-画像データのペアを取得してベースモデルを訓練します。豊富なデータでの実験では、先進モデルの生成データで訓練されたモデルがその生成能力を近似できることが示されました。ただし、1,000万以上の大規模なサンプルが必要です。これには、時間、計算リソース、特に有料APIの呼び出しに関連する費用がかかります。この問題に対処するために、事前に訓練された大規模なビジョン言語モデル(VLM)を活用して、ベースモデルの進化を導きます。VLMは訓練中にベースモデルを継続的に評価し、差別、拡張、削除、および変異操作によって訓練データセットを動的に更新および洗練します。実験結果は、このパラダイムが必要なデータ量を大幅に削減することを示しています。さらに、複数の先進モデルに近づく際、EvolveDirectorはそれらによって生成された最高のサンプルを選択して強力でバランスの取れた能力を学習できます。最終的に訓練されたモデルEdgenは、これらの先進モデルを上回る性能を発揮します。コードとモデルの重みは、https://github.com/showlab/EvolveDirector で入手できます。
English
Recent advancements in generation models have showcased remarkable
capabilities in generating fantastic content. However, most of them are trained
on proprietary high-quality data, and some models withhold their parameters and
only provide accessible application programming interfaces (APIs), limiting
their benefits for downstream tasks. To explore the feasibility of training a
text-to-image generation model comparable to advanced models using publicly
available resources, we introduce EvolveDirector. This framework interacts with
advanced models through their public APIs to obtain text-image data pairs to
train a base model. Our experiments with extensive data indicate that the model
trained on generated data of the advanced model can approximate its generation
capability. However, it requires large-scale samples of 10 million or more.
This incurs significant expenses in time, computational resources, and
especially the costs associated with calling fee-based APIs. To address this
problem, we leverage pre-trained large vision-language models (VLMs) to guide
the evolution of the base model. VLM continuously evaluates the base model
during training and dynamically updates and refines the training dataset by the
discrimination, expansion, deletion, and mutation operations. Experimental
results show that this paradigm significantly reduces the required data volume.
Furthermore, when approaching multiple advanced models, EvolveDirector can
select the best samples generated by them to learn powerful and balanced
abilities. The final trained model Edgen is demonstrated to outperform these
advanced models. The code and model weights are available at
https://github.com/showlab/EvolveDirector.Summary
AI-Generated Summary