翻訳付きの日次キュレーションされたAI研究論文
最先端のテキストから画像(T2I)モデルは、多大なトレーニングコスト(例:数百万GPU時間)を必要とし、AIGCコミュニティの根本的な革新を著しく妨げると同時に、CO2排出量を増加させています。本論文では、TransformerベースのT2I拡散モデルであるPIXART-alphaを紹介します。このモデルは、画像生成品質において最先端の画像生成器(例:Imagen、SDXL、さらにはMidjourney)と競合し、商用アプリケーション基準に近いレベルに達しています。さらに、図1および図2に示すように、低いトレーニングコストで最大1024pxの高解像度画像合成をサポートします。この目標を達成するために、3つのコア設計が提案されています:(1)トレーニング戦略の分解:ピクセル依存性、テキストと画像の整合性、および画像の美的品質を個別に最適化する3つの異なるトレーニングステップを考案します。(2)効率的なT2I Transformer:テキスト条件を注入し、計算集約的なクラス条件ブランチを合理化するために、Diffusion Transformer(DiT)にクロスアテンションモジュールを組み込みます。(3)高情報量データ:テキストと画像のペアにおける概念密度の重要性を強調し、大規模なVision-Languageモデルを活用して、テキストと画像の整合性学習を支援するための密な擬似キャプションを自動ラベル付けします。その結果、PIXART-alphaのトレーニング速度は既存の大規模T2Iモデルを大幅に上回り、例えば、PIXART-alphaはStable Diffusion v1.5のトレーニング時間の10.8%(675 vs. 6,250 A100 GPU日)しかかからず、約\300,000(26,000 vs. \320,000)を節約し、CO2排出量を90%削減します。さらに、より大規模なSOTAモデルであるRAPHAELと比較して、我々のトレーニングコストはわずか1%です。広範な実験により、PIXART-alphaは画像品質、芸術性、および意味的制御において優れていることが実証されています。我々は、PIXART-alphaがAIGCコミュニティやスタートアップに新たな洞察を提供し、高品質かつ低コストの生成モデルをゼロから構築することを加速することを期待しています。
大規模言語モデル(LLM)は、オープンエンドのテキスト生成タスクにおいて顕著な能力を発揮しています。しかし、これらのタスクの本質的なオープンエンド性は、モデルの応答品質に常に改善の余地があることを意味します。この課題に対処するため、LLMの性能を向上させるための様々なアプローチが提案されています。特に、LLMが自らの応答品質を自己改善できるようにすることに焦点が当てられており、多様で高品質な訓練データを収集するための大規模な人間のアノテーション作業への依存を減らすことが目指されています。最近では、プロンプトベースの手法がその有効性、効率性、利便性から、自己改善手法の中で広く探求されています。しかし、これらの手法は通常、LLMへの入力として明示的かつ徹底的に記述された評価基準を必要とします。現実世界の複雑な改善目標(例えば、より役に立ち、有害でないこと)に対して、必要なすべての評価基準を手動で導出し提供することは、コストがかかり困難です。この問題を解決するため、我々は人間の選好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案します。PITは、報酬モデルの訓練に使用される選好データのみを必要とし、追加の人間の努力を必要としません。具体的には、人間のフィードバックからの強化学習(RLHF)の訓練目的を再定式化します――与えられた入力に対する応答品質を最大化する代わりに、参照応答を条件とした応答の品質ギャップを最大化します。このようにして、PITは人間の選好により良く整合するという改善目標を暗黙的に訓練されます。2つの実世界のデータセットと1つの合成データセットでの実験により、我々の手法がプロンプトベースの手法を大幅に上回ることが示されました。
生成拡散モデルは、テキストから画像生成のための強力な事前分布を提供し、画像編集、修復、超解像などの条件付き生成タスクの基盤として機能します。しかし、拡散モデルの主な制限の一つは、サンプリング時間が遅いことです。この課題に対処するため、我々は画像条件を活用して拡散事前分布を補完し、わずかなステップで条件付きサンプリングを可能にする新しい条件付き蒸留法を提案します。我々は、無条件事前学習を単一ステージで直接蒸留し、従来の蒸留と条件付き微調整を別々に行う二段階の手順を大幅に簡素化します。さらに、本手法は、共有された凍結された無条件バックボーンとわずかな追加パラメータのみを組み合わせて各タスクを蒸留する、新しいパラメータ効率の良い蒸留メカニズムを可能にします。超解像、画像編集、深度から画像生成を含む複数のタスクにわたる実験により、本手法が同じサンプリング時間において既存の蒸留技術を凌駕することが示されました。特に、本手法は、はるかに遅い微調整された条件付き拡散モデルの性能に匹敵する初めての蒸留戦略です。