翻訳付きの日次キュレーションされたAI研究論文
テキストから画像を生成する技術は近年目覚ましい進歩を遂げ、与えられたテキストプロンプトに基づいて現実的な人物写真を合成することが可能になりました。しかし、既存のパーソナライズド生成手法は、高い効率性、優れたID忠実度、そして柔軟なテキスト制御性という要件を同時に満たすことができませんでした。本研究では、PhotoMakerという効率的なパーソナライズドテキスト画像生成手法を提案します。この手法は、主に任意の数の入力ID画像をスタックID埋め込みにエンコードし、ID情報を保持します。この埋め込みは、統一されたID表現として機能し、同じ入力IDの特性を包括的にカプセル化するだけでなく、異なるIDの特性も後続の統合に適応させることができます。これにより、より興味深く実用的なアプリケーションの道が開かれます。さらに、PhotoMakerのトレーニングを推進するために、ID指向のデータ構築パイプラインを提案し、トレーニングデータを組み立てます。提案されたパイプラインを通じて構築されたデータセットの下で、PhotoMakerは、テスト時のファインチューニングベースの手法よりも優れたID保持能力を示し、さらに大幅な速度向上、高品質な生成結果、強力な汎化能力、そして幅広いアプリケーションを提供します。プロジェクトページはhttps://photo-maker.github.io/で公開されています。
意味的に適切で長期的な人間と物体の相互作用を合成することは、現実的な人間の行動をシミュレートするために重要です。本研究では、3Dシーンにおける言語記述に基づいて同期した物体の動きと人間の動きを生成するという難しい問題に取り組みます。私たちは、言語記述、初期の物体と人間の状態、疎な物体のウェイポイントを与えられた条件付き拡散モデルを使用して、物体の動きと人間の動きを同時に生成するアプローチであるControllable Human-Object Interaction Synthesis(CHOIS)を提案します。言語記述はスタイルと意図を伝えますが、ウェイポイントはシーン内での動きを接地させ、高レベルの計画手法を使用して効果的に抽出できます。拡散モデルを単純に適用すると、入力されたウェイポイントと整合する物体の動きを予測できず、正確な手と物体の接触や床に基づいた適切な接触を必要とする相互作用の現実性を保証できません。これらの問題を克服するために、生成された物体の動きと入力された物体のウェイポイントとの整合性を向上させるために、物体の幾何学的損失を追加の監督として導入します。さらに、訓練された拡散モデルのサンプリングプロセス中に接触制約を強制するためのガイダンス項を設計します。
単一画像からの3Dコンテンツ生成は、長年の課題でありながら非常に望まれるタスクである。最近の進展により、2D拡散事前分布が導入され、合理的な結果が得られるようになった。しかし、既存の手法は生成後の使用において十分に超現実的ではなく、ユーザーは生成された3Dコンテンツを全方位から閲覧、レンダリング、編集することができない。これらの課題に対処するため、我々はHyperDreamerを導入し、いくつかの重要な設計と魅力的な特性を備えている:1) 可視性:高解像度テクスチャを伴う360度メッシュモデリングにより、全方位の観察点から視覚的に魅力的な3Dモデルを作成可能。2) レンダリング可能:細粒度のセマンティックセグメンテーションとデータ駆動型事前分布をガイダンスとして組み込み、合理的なアルベド、粗さ、鏡面反射特性を学習し、セマンティックを意識した任意の材質推定を実現。3) 編集可能:生成されたモデルまたはユーザー自身のデータに対して、ユーザーは数回のクリックで任意の領域をインタラクティブに選択し、テキストベースのガイダンスを用いて効率的にテクスチャを編集可能。大規模な実験により、HyperDreamerが高解像度テクスチャを伴う領域認識材質のモデリングとユーザーフレンドリーな編集を可能にする効果を実証。我々は、HyperDreamerが3Dコンテンツ生成を進化させ、様々な分野での応用が見込まれると信じている。
大規模なテキストからビデオ(T2V)生成のための拡散モデルは、近年、視覚的品質、動き、時間的一貫性の面で大きな進歩を遂げています。しかし、生成プロセスは依然としてブラックボックスのままであり、すべての属性(例:外観、動き)が大まかなテキスト記述以外の正確な制御能力なしに同時に学習・生成されています。特定の外観とそれに対応する動きにビデオを分離する画像アニメーションに着想を得て、我々はAnimateZeroを提案し、事前学習済みのテキストからビデオ生成モデル(AnimateDiff)を解明し、より正確な外観と動きの制御能力を提供します。外観制御のため、テキストから画像(T2I)生成の中間潜在変数とその特徴を借用し、生成された最初のフレームが与えられた生成画像と一致することを保証します。時間的制御のため、元のT2Vモデルのグローバルな時間的注意機構を、我々が提案する位置補正ウィンドウ注意機構に置き換え、他のフレームが最初のフレームと適切に整合するようにします。提案手法により、AnimateZeroは追加の学習なしで生成プロセスを成功裏に制御できます。与えられた画像に対するゼロショット画像アニメーターとして、AnimateZeroはインタラクティブなビデオ生成や実画像アニメーションを含む複数の新たな応用を可能にします。詳細な実験により、提案手法のT2Vおよび関連応用における有効性が実証されています。
強化学習(Reinforcement Learning, RL)は、長期的な目標を達成するための汎用的なフレームワークを提供します。その汎用性により、現実世界の知的システムが直面する多様な問題を形式化することが可能です。これには、遅延報酬への対応、部分観測性の処理、探索と活用のジレンマへの対処、オフラインデータを活用したオンラインパフォーマンスの向上、安全性制約の遵守などが含まれます。RL研究コミュニティはこれらの課題に対処するために大きな進展を遂げてきましたが、既存のオープンソースRLライブラリは、RLソリューションパイプラインの一部に焦点を当てる傾向があり、他の側面はほとんど手つかずのままです。本論文では、これらの課題をモジュール方式で包括的に取り組むために設計された、プロダクションレディなRLエージェントソフトウェアパッケージ「Pearl」を紹介します。予備的なベンチマーク結果を提示するだけでなく、Pearlの産業界での採用事例を強調し、そのプロダクション使用への適合性を実証します。PearlはGithub(github.com/facebookresearch/pearl)でオープンソース化されており、公式ウェブサイトはpearlagent.github.ioにあります。
近年、拡散モデルはテキストから画像(T2I)生成において顕著な進歩を遂げ、高忠実度で多様な内容の画像を合成できるようになりました。しかし、この進歩にもかかわらず、拡散モデル内の潜在空間の滑らかさについてはほとんど研究が行われていません。滑らかな潜在空間は、入力潜在変数に対する摂動が出力画像において安定した変化に対応することを保証します。この特性は、画像補間、反転、編集などの下流タスクにおいて有益であることが証明されています。本研究では、微小な潜在変動によって生じる顕著な視覚的変動を観察することで、拡散モデルの潜在空間の非滑らかさを明らかにします。この問題に対処するため、高性能かつ滑らかな新しいカテゴリーの拡散モデルであるSmooth Diffusionを提案します。具体的には、任意の入力潜在変数の変動と出力画像の変動の比率が拡散トレーニングのどのステップでも一定となるように強制するStep-wise Variation Regularizationを導入します。さらに、拡散モデルの潜在空間の滑らかさを効果的に評価するための補間標準偏差(ISTD)メトリックを考案します。広範な定量的および定性的実験により、Smooth DiffusionがT2I生成だけでなく、さまざまな下流タスクにおいてもより望ましいソリューションであることが実証されています。Smooth Diffusionは、さまざまなコミュニティモデルと連携するプラグアンドプレイのSmooth-LoRAとして実装されています。コードはhttps://github.com/SHI-Labs/Smooth-Diffusionで公開されています。
本研究では、画像および動画生成のためのTransformerベースの拡散モデルを探求します。Transformerアーキテクチャはその柔軟性とスケーラビリティから様々な分野で支配的であるにもかかわらず、視覚生成の領域では主にCNNベースのU-Netアーキテクチャ、特に拡散ベースのモデルが使用されています。このギャップを埋めるため、Transformerベースの拡散を採用した生成モデルファミリーであるGenTronを導入します。最初のステップとして、Diffusion Transformers(DiTs)をクラス条件付けからテキスト条件付けに適応させ、条件付けメカニズムの徹底的な実証的探求を行いました。次に、GenTronを約900Mから3B以上のパラメータにスケールアップし、視覚品質の大幅な向上を観察しました。さらに、GenTronをテキストから動画生成に拡張し、動画品質を向上させるための新しいモーションフリーガイダンスを組み込みました。SDXLとの人間評価では、GenTronは視覚品質で51.1%の勝率(19.8%の引き分け率)、テキストアライメントで42.3%の勝率(42.9%の引き分け率)を達成しました。GenTronはまた、T2I-CompBenchでも優れた性能を示し、構成的生成における強みを強調しています。本研究が有意義な洞察を提供し、将来の研究にとって貴重な参考資料となることを信じています。
我々はNeRFillerを提案する。これは、既存の2D視覚生成モデルを用いて、3Dキャプチャの欠損部分を生成的な3Dインペインティングで補完するアプローチである。3Dシーンやオブジェクトの一部は、メッシュ再構成の失敗や観測不足(例えば、物体の底面などの接触領域や到達困難な領域)によって欠落していることが多い。我々は、この難しい3Dインペインティング問題に取り組むために、2Dインペインティング拡散モデルを活用する。これらのモデルが、画像が2×2グリッドを形成する場合により3D整合性のあるインペイントを生成するという驚くべき挙動を発見し、この挙動を4枚以上の画像に一般化する方法を示す。次に、これらのインペイント領域を単一の整合性のある3Dシーンに蒸留する反復的フレームワークを提示する。関連研究とは対照的に、我々は前景オブジェクトを削除するのではなくシーンを補完することに焦点を当てており、厳密な2Dオブジェクトマスクやテキストを必要としない。我々のアプローチを、様々なシーンにおいて設定に適応させた関連ベースラインと比較し、NeRFillerが最も3D整合性があり、妥当なシーン補完を作成することを示す。プロジェクトページはhttps://ethanweber.me/nerfillerにある。
最近、拡散モデルは合成画像の品質向上と生成制御の改善を示しています。本論文では、最先端のグラウンディング画像生成手法を活用して、無料で物体検出のための合成トレーニングデータを作成するシンプルでモジュール型のパイプラインであるGen2Detを提案します。既存の研究では個々の物体インスタンスを生成し、前景を特定した後に他の画像に貼り付ける必要がありますが、我々はシーン中心の画像を直接生成する方法を簡素化しました。合成データに加えて、Gen2Detは生成データを最大限に活用するための一連の技術も提案しています。これには、画像レベルのフィルタリング、インスタンスレベルのフィルタリング、および生成の不完全性を考慮したより良いトレーニングレシピが含まれます。Gen2Detを使用することで、様々な設定下で物体検出とセグメンテーションタスクにおいて健全な改善を示し、検出方法に依存しない結果を得ました。LVISにおけるロングテール検出設定では、Gen2Detは希少カテゴリの性能を大幅に向上させると同時に、他のカテゴリの性能も著しく改善しました。例えば、Mask R-CNNを使用したLVISの実データのみでのトレーニングと比較して、Box APが2.13、Mask APが1.84向上しました。COCOの低データ設定では、Gen2DetはBox APとMask APをそれぞれ2.27ポイントと1.85ポイント一貫して向上させました。最も一般的な検出設定においても、Gen2Detは堅牢な性能向上を示し、例えばCOCOのBox APとMask APをそれぞれ0.45ポイントと0.32ポイント改善しました。
拡散モデルを用いたカスタマイズ生成は、画像生成において目覚ましい進歩を遂げていますが、被写体と動きの両方を制御する必要があるという課題から、ビデオ生成タスクではまだ満足のいく結果が得られていません。この課題に対処するため、我々はDreamVideoを提案します。これは、目的の被写体の数枚の静止画と目標の動きの数本のビデオから、パーソナライズされたビデオを生成する新しいアプローチです。DreamVideoは、このタスクを被写体学習と動き学習の2段階に分離し、事前学習済みのビデオ拡散モデルを活用します。被写体学習では、提供された画像から被写体の細かい外観を正確に捉えることを目指し、テキスト反転と我々が設計したIDアダプタの微調整を組み合わせることでこれを実現します。動き学習では、動きアダプタを設計し、与えられたビデオに基づいて微調整を行うことで、目標の動きパターンを効果的にモデル化します。これら2つの軽量で効率的なアダプタを組み合わせることで、任意の被写体と任意の動きを柔軟にカスタマイズすることが可能になります。広範な実験結果は、我々のDreamVideoがカスタマイズビデオ生成において最先端の手法を凌駕する優れた性能を発揮することを示しています。プロジェクトページはhttps://dreamvideo-t2v.github.ioにあります。
近年のテキストから画像へのモデルの著しい進展により、合成画像を用いて視覚システムを訓練する可能性が開かれ、大規模なキュレーションデータの収集の難しさを克服する可能性がある。しかし、より多くの合成データが訓練セットに追加されるにつれて、これらのモデルがどのように振る舞うかは明らかではない。本論文では、最先端のテキストから画像へのモデルによって生成された合成画像のスケーリング則を、教師ありモデルの訓練のために研究する:ラベル監視付きの画像分類器と、言語監視付きのCLIPである。テキストプロンプト、分類器なしガイダンススケール、およびテキストから画像へのモデルの種類など、スケーリング挙動に大きく影響するいくつかの要因を特定する。これらの要因を調整した後、合成画像はCLIP訓練において、実画像と同様の、しかしやや効果の低いスケーリング傾向を示す一方、教師あり画像分類器の訓練においてはスケーリングで著しく劣ることを観察する。我々の分析は、この低性能の主な理由が、既存のテキストから画像へのモデルが特定の概念を生成できないことであり、これが画像分類器の訓練を著しく損なう制限であることを示している。我々の知見はまた、合成データのスケーリングが以下のようなシナリオで特に有効であることを示唆している:(1)教師あり問題に対して実画像の供給が限られている場合(例:ImageNetで50万枚未満)、(2)評価データセットが訓練データから大きく乖離している場合、すなわち分布外シナリオを示す場合、または(3)合成データが実画像と併用される場合、CLIPモデルの訓練で示されたように。
拡散モデルはフォトリアルな画像生成において強力な能力を示しているものの、現実的で多様な動画の生成はまだ初期段階にあります。その主な理由の一つは、現在の手法が空間的内容と時間的ダイナミクスを密接に結びつけており、テキストから動画を生成する(T2V)タスクの複雑さが著しく増大していることです。本研究では、HiGenという拡散モデルベースの手法を提案し、構造レベルと内容レベルという二つの観点から動画の空間的要素と時間的要素を分離することで性能を向上させます。構造レベルでは、T2Vタスクを空間的推論と時間的推論の二段階に分解し、統一されたデノイザーを使用します。具体的には、空間的推論中にテキストを用いて空間的に一貫した事前情報を生成し、その後、時間的推論中にこれらの事前情報から時間的に一貫した動きを生成します。内容レベルでは、入力動画の内容から動きと外観の変化をそれぞれ表現する二つの微妙な手がかりを抽出します。これらの手がかりは、動画生成のためのモデルの学習を導き、柔軟な内容の変化を可能にし、時間的安定性を向上させます。この分離されたパラダイムを通じて、HiGenはこのタスクの複雑さを効果的に軽減し、意味的精度と動きの安定性を備えた現実的な動画を生成することができます。広範な実験により、HiGenが最先端のT2V手法を凌駕する優れた性能を示すことが実証されています。