翻訳付きの日次キュレーションされたAI研究論文
パーソナライゼーションは、生成AI分野において重要な側面として浮上しており、個人のアイデンティティを高忠実度で維持しながら、多様な文脈やスタイルでの合成を可能にしています。しかし、パーソナライゼーションのプロセスには、時間とメモリ要件の面で固有の課題があります。各パーソナライズモデルのファインチューニングには相当なGPU時間の投資が必要であり、被写体ごとにパーソナライズモデルを保存するにはストレージ容量が要求されます。これらの課題を克服するため、我々はHyperDreamBoothを提案します。これは、単一の人物画像から効率的に少量のパーソナライズされた重みを生成できるハイパーネットワークです。これらの重みを拡散モデルに組み込み、高速なファインチューニングと組み合わせることで、HyperDreamBoothは、人物の顔を多様な文脈やスタイルで生成し、高い被写体の詳細を維持しながら、モデルの多様なスタイルや意味的変更に関する重要な知識も保持します。我々の手法は、約20秒で顔のパーソナライゼーションを達成し、DreamBoothの25倍、Textual Inversionの125倍の速度で、DreamBoothと同等の品質とスタイルの多様性を維持しながら、わずか1枚の参照画像を使用します。また、我々の手法は、通常のDreamBoothモデルよりも10000倍小さいモデルを生成します。プロジェクトページ: https://hyperdreambooth.github.io
テキストから画像(T2I)のパーソナライゼーションは、ユーザーが自然言語プロンプトに自身の視覚的概念を組み込むことで、創造的な画像生成プロセスを導くことを可能にします。最近、エンコーダベースの技術が新しい効果的なアプローチとして登場し、複数の画像や長時間のトレーニングを必要とせずにT2Iパーソナライゼーションを実現しています。しかし、既存のエンコーダのほとんどは単一クラスのドメインに限定されており、多様な概念を扱う能力が制限されています。本研究では、専門的なデータセットやパーソナライズされた概念に関する事前情報を必要としない、ドメインに依存しない手法を提案します。新たなコントラスティブベースの正則化技術を導入し、ターゲット概念の特性への忠実度を維持しながら、予測された埋め込みを潜在空間の編集可能な領域に近づけるために、予測されたトークンを既存のCLIPトークンに近づけます。実験結果は、本手法の有効性を示し、正則化されていないモデルによって予測されたトークンよりも、学習されたトークンがより意味的であることを示しています。これにより、従来の手法よりも柔軟でありながら、最先端の性能を達成するより良い表現が実現されます。
ビジュアルストーリーテリングのための動画生成は、通常、実写撮影やグラフィックアニメーションのレンダリングを必要とする、面倒で複雑なプロセスです。これらの課題を回避するため、私たちの主要なアイデアは、既存の動画クリップの豊富さを活用し、それらの外観をカスタマイズすることで、一貫性のあるストーリーテリング動画を合成することです。これを実現するために、2つの機能モジュールからなるフレームワークを開発しました:(i) モーション構造検索(Motion Structure Retrieval)は、クエリテキストで記述された望ましいシーンやモーションのコンテキストを持つ動画候補を提供し、(ii) 構造誘導型テキスト・ツー・ビデオ合成(Structure-Guided Text-to-Video Synthesis)は、モーション構造とテキストプロンプトのガイダンスのもとで、プロットに沿った動画を生成します。最初のモジュールでは、既存の動画検索システムを活用し、動画の深度をモーション構造として抽出します。2番目のモジュールでは、構造とキャラクターに対して柔軟な制御を提供する制御可能な動画生成モデルを提案します。動画は、構造的ガイダンスと外観指示に従って合成されます。クリップ間の視覚的一貫性を確保するために、テキストプロンプトを通じて望ましいキャラクターのアイデンティティを指定できる効果的な概念パーソナライゼーションアプローチを提案します。広範な実験により、私たちのアプローチが既存のさまざまなベースラインに対して大きな優位性を示すことが実証されています。
本論文では、大規模事前学習言語モデル(LLM)から生成される出力の品質と一貫性を向上させるための新しいアプローチを提案する。自己一貫性は、固定された答えを持つプロンプトに対して有効な手法として登場し、最も多くの投票を得た答えを選択する。本論文では、固定された答えを持つ問題を超えて適用可能な、自己一貫性の一般化されたフレームワークを紹介する。広範なシミュレーションを通じて、我々のアプローチが候補の中から最適またはほぼ最適な生成を一貫して回復することを実証する。また、トークンの対数確率にアクセスしなくても、コード生成、自動形式化、要約タスクにおいて、有意かつ一貫した改善を示す軽量でパラメータフリーな類似度関数を提案する。我々の手法は、補助的なランキングモデルや既存モデルの変更を必要とせず、最小限の計算オーバーヘッドしか発生しない。