翻訳付きの日次キュレーションされたAI研究論文
コントラスティブ学習は、画像とテキストの埋め込みを整列させることで効果的な視覚表現を学習する革新的な手法として登場しました。しかし、画像とテキストのペア間のコントラスティブ損失におけるペアワイズ類似度計算は、計算上の課題を引き起こします。本論文では、ウェブスケールの画像-テキストデータを用いた視覚モデルの弱教師あり事前学習の新たな手法を提案します。提案手法は、画像-テキストデータの事前学習を分類タスクとして再定義します。その結果、コントラスティブ損失におけるペアワイズ類似度計算が不要となり、ウェブスケールデータでのコントラスティブ学習と比較して、訓練速度が2.7倍向上します。検出やセグメンテーションを含む多様な視覚タスクにわたる広範な実験を通じて、提案手法が高い表現品質を維持することを実証します。ソースコード、事前学習済みモデルの重み、および訓練レシピはhttps://github.com/apple/corenetで公開されています。
本研究では、テキストから画像を生成するための新しいチューニング不要なIDカスタマイズ手法であるPure and Lightning ID customization (PuLID)を提案します。PuLIDは、標準的な拡散モデルにLightning T2Iブランチを組み込むことで、コントラスティブアライメント損失と正確なID損失の両方を導入し、元のモデルへの影響を最小限に抑えつつ高いID忠実度を確保します。実験結果から、PuLIDはID忠実度と編集可能性の両方で優れた性能を発揮することが示されています。さらにPuLIDの魅力的な特性として、ID挿入前後の画像要素(背景、照明、構図、スタイルなど)が可能な限り一貫して保たれる点が挙げられます。コードとモデルはhttps://github.com/ToTheBeginning/PuLIDで公開予定です。
コントラスティブ言語画像事前学習(CLIP)の成功は、画像とキャプションのペアリングからの教師信号に依存していますが、ウェブクロールデータではノイズが含まれがちです。本論文では、データエキスパートの混合(Mixture of Data Experts, MoDE)を提案し、クラスタリングを通じてCLIPデータエキスパートのシステムを学習します。各データエキスパートは1つのデータクラスタで訓練され、他のクラスタの偽陰性ノイズに対して鈍感になります。推論時には、タスクメタデータとクラスタ条件の相関に基づいて決定された重みを適用し、それらの出力をアンサンブルします。この相関を正確に推定するため、1つのクラスタ内のサンプルは意味的に類似しているべきですが、データエキスパートの数は訓練と推論に適切な範囲に収める必要があります。そのため、人間の言語におけるオントロジーを考慮し、粗粒度レベルで各データエキスパートを表現するために細粒度クラスタセンターを使用することを提案します。実験的研究では、ViT-B/16上の4つのCLIPデータエキスパートが、OpenAI CLIPとOpenCLIPのViT-L/14をゼロショット画像分類において上回り、かつ訓練コストを35%未満に抑えることが示されました。また、MoDEはすべてのデータエキスパートを非同期に訓練でき、新しいデータエキスパートを柔軟に組み込むことができます。コードはhttps://github.com/facebookresearch/MetaCLIP/tree/main/modeで公開されています。
拡散モデルの急速な発展により、多様な応用が引き起こされている。特に、アイデンティティを保持したテキストから画像への生成(ID-T2I)は、AIポートレートや広告などの幅広い応用シナリオから大きな注目を集めている。既存のID-T2I手法は印象的な結果を示しているものの、いくつかの重要な課題が残されている:(1)参照ポートレートのアイデンティティ特性を正確に維持することが難しい、(2)生成された画像が、特にアイデンティティ保持を強制する際に美的魅力に欠ける、(3)LoRAベースとAdapterベースの手法を同時に互換させることができないという制限がある。これらの課題に対処するため、我々はID-T2Iの性能を向上させるための汎用的なフィードバック学習フレームワークであるID-Alignerを提案する。アイデンティティ特徴の喪失を解決するために、顔検出および認識モデルからのフィードバックを活用したアイデンティティ一貫性報酬ファインチューニングを導入し、生成されたアイデンティティの保持を改善する。さらに、人間が注釈を付けた選好データと自動構築されたキャラクター構造生成に関するフィードバックを活用したアイデンティティ美的報酬ファインチューニングを提案し、美的な調整信号を提供する。その汎用的なフィードバックファインチューニングフレームワークのおかげで、我々の手法はLoRAモデルとAdapterモデルの両方に容易に適用でき、一貫した性能向上を達成する。SD1.5およびSDXL拡散モデルでの広範な実験により、我々のアプローチの有効性が検証された。プロジェクトページ:\url{https://idaligner.github.io/}
拡散モデルの出現は、画像および動画生成の進展を大きく推進してきた。最近では、テキストから動画を生成する手法や動画のモーション制御など、制御可能な動画生成に向けた取り組みが行われており、その中でもカメラモーション制御は重要なトピックである。しかし、既存のカメラモーション制御手法は、時間的なカメラモジュールを訓練する必要があり、動画生成モデルのパラメータ数が多いため、膨大な計算リソースを必要とする。さらに、既存の手法では訓練中にカメラモーションのタイプを事前に定義するため、カメラ制御の柔軟性が制限されている。そこで、訓練コストを削減し、柔軟なカメラ制御を実現するために、我々はCOMDという新しい訓練不要の動画モーショントランスファーモデルを提案する。このモデルは、ソース動画からカメラモーションとオブジェクトモーションを分離し、抽出したカメラモーションを新しい動画に転送する。まず、単一のソース動画からカメラモーションを抽出するワンショットカメラモーション分離手法を提案し、移動するオブジェクトを背景から分離し、背景のモーションに基づいて移動オブジェクト領域のカメラモーションをポアソン方程式を解くことで推定する。さらに、類似したカメラモーションを持つ複数の動画から共通のカメラモーションを抽出するためのフューショットカメラモーション分離手法を提案し、時間的アテンションマップにおける共通特徴をウィンドウベースのクラスタリング技術を用いて抽出する。最後に、異なるタイプのカメラモーションを組み合わせるためのモーション結合手法を提案し、モデルにより制御可能で柔軟なカメラ制御を可能にする。大規模な実験により、我々の訓練不要アプローチがカメラとオブジェクトのモーションを効果的に分離し、分離されたカメラモーションを幅広い制御可能な動画生成タスクに適用できることが示され、柔軟で多様なカメラモーション制御を実現することが確認された。
拡散モデルはテキストガイド合成タスクにおいて大きな進展を遂げてきました。しかし、ユーザー提供の画像を編集することは依然として課題が残っています。なぜなら、拡散モデルの高次元ノイズ入力空間は、画像の反転や空間的編集に自然に適しているわけではないからです。本研究では、拡散モデルを用いて入力画像の空間的編集を促進する画像表現を提案します。具体的には、入力画像を忠実に再構築できる「画像要素」にエンコードする方法を学習します。これらの要素はユーザーが直感的に編集でき、拡散モデルによって現実的な画像にデコードされます。我々は、オブジェクトのサイズ変更、再配置、ドラッグ、遮蔽除去、削除、バリエーション、画像合成など、様々な画像編集タスクにおいて、この表現の有効性を示します。プロジェクトページ: https://jitengmu.github.io/Editable_Image_Elements/
人間のマッティングは、画像および映像処理における基礎的なタスクであり、入力から人間の前景ピクセルを抽出するものです。従来の研究では、追加のガイダンスによって精度を向上させるか、単一インスタンスのフレーム間での時間的一貫性を改善していました。本研究では、新しいフレームワークMaGGIe(Masked Guided Gradual Human Instance Matting)を提案します。このフレームワークは、計算コスト、精度、一貫性を維持しながら、各人間インスタンスのアルファマットを段階的に予測します。我々の手法は、トランスフォーマーアテンションやスパース畳み込みといった現代的なアーキテクチャを活用し、メモリとレイテンシを爆発させることなく、すべてのインスタンスマットを同時に出力します。複数インスタンスのシナリオにおいても推論コストを一定に保ちつつ、提案する合成ベンチマークにおいて堅牢で汎用的な性能を達成します。より高品質な画像および映像マッティングのベンチマークとともに、公開されているソースからの新しいマルチインスタンス合成アプローチを導入し、実世界のシナリオにおけるモデルの汎化性能を向上させます。
推測デコードは、大規模言語モデルのホスティングにおけるレイテンシとスループットを改善する強力な手法として登場しました。しかし、既存の実装のほとんどは単一のシーケンス生成に焦点を当てています。現実世界の生成AIアプリケーションでは、複数の応答が必要となることが多く、バッチ設定で推測デコードを実行しつつそのレイテンシの利点を維持することは、自明ではない課題を提起します。本論文では、バッチ推測デコードのシステムを説明し、複数シーケンス生成におけるレイテンシの新たな最先端を確立するとともに、時間予算内での生成品質とGPU利用率の優位性を実証します。例えば、7.8Bサイズのモデルを単一のA100 GPUでバッチサイズ8で実行した場合、各シーケンスは平均5.8ms/tokenの速度で生成され、全体のスループットは1.1K tokens/秒となります。これらの結果は、最適化された通常のデコードと比較して、最先端のレイテンシと2.15倍の高速化を表しています。通常のデコードでは完了しない時間予算内で、本システムはHumanEval Pass@Firstで43%、Pass@Allで61%のシーケンスを生成することができ、単一シーケンス推測デコードで実現可能な範囲を大幅に上回ります。デコード中のピークGPU利用率は15.8%に達し、通常のデコードの最高値の3倍以上、単一シーケンス推測デコードの約10倍となります。
インコンテキスト学習(ICL)アプローチでは、通常、プロンプティングを活用してデコーダー専用言語モデルの生成を参照情報に基づいて条件付けます。コンテキストのジャストインタイム処理は、セルフアテンション操作の二次コストのため非効率的であり、キャッシュが望ましいです。しかし、トランスフォーマーの状態をキャッシュすると、モデルパラメータとほぼ同程度のスペースを容易に必要とします。適切なコンテキストが事前にわからない場合、ICLのキャッシュは困難です。本研究では、これらの制限に対処するため、エンコーダー-デコーダーアーキテクチャに着想を得たモデルを導入し、プロンプトなしで参照テキストに基づく生成を条件付けるためにクロスアテンションを使用します。より正確には、事前学習済みのデコーダー専用モデルを活用し、追加された少数の層のみを訓練します。条件付き生成の能力を評価するためのテストベッドとして質問応答(QA)を使用し、我々のモデルがICLを上回り、ファインチューニングされたプロンプト付きLLMに匹敵し、標準的なKVキャッシュに比べてスペースフットプリントを2桁削減することを観察しました。