翻訳付きの日次キュレーションされたAI研究論文
一般的な拡散モデルのノイズスケジュールでは、最終タイムステップで信号対雑音比(SNR)がゼロになることが保証されておらず、また一部の拡散サンプラーの実装では、最終タイムステップから開始されていないことがわかりました。このような設計は欠陥があり、推論時にモデルが純粋なガウスノイズを与えられるという事実を反映しておらず、学習と推論の間に不一致を生じさせます。この欠陥のある設計が既存の実装において実際に問題を引き起こすことを示します。Stable Diffusionでは、モデルが中程度の明るさの画像しか生成できず、非常に明るいまたは暗いサンプルの生成が妨げられています。私たちは、いくつかの簡単な修正を提案します:(1)ノイズスケジュールを再スケーリングして、最終SNRがゼロになるようにする;(2)v予測を用いてモデルを学習する;(3)サンプラーを常に最終タイムステップから開始するように変更する;(4)分類器不要ガイダンスを再スケーリングして、露出過剰を防ぐ。これらの簡単な変更により、拡散プロセスが学習と推論の間で整合性を保ち、モデルが元のデータ分布により忠実なサンプルを生成できるようになります。
本論文では、FitMeを紹介する。FitMeは、単一または複数の画像から高精細なレンダリング可能な人間のアバターを取得するために使用できる、顔の反射率モデルと微分可能なレンダリング最適化パイプラインである。このモデルは、拡散反射と鏡面反射の観点から顔の外観を捉えるマルチモーダルなスタイルベースのジェネレータと、PCAベースの形状モデルで構成されている。我々は、最適化パイプラインで使用可能な高速な微分可能なレンダリングプロセスを採用し、同時に写実的な顔のシェーディングを実現している。最適化プロセスでは、スタイルベースの潜在表現と形状モデルの表現力を活用することで、顔の反射率と形状を高精度に捉える。FitMeは、単一の「イン・ザ・ワイルド」顔画像において、最先端の反射率取得とアイデンティティ保存を達成し、同じアイデンティティに属する複数の制約のない顔画像が与えられた場合には、スキャンに匹敵する印象的な結果を生成する。最近の暗黙的なアバター再構成手法とは対照的に、FitMeはわずか1分で再照明可能なメッシュとテクスチャベースのアバターを生成し、エンドユーザーアプリケーションで使用することができる。
拡散モデルは、特にパーソナライズされた画像のための被写体駆動生成において、テキストから画像への生成に優れています。しかし、既存の手法は被写体固有のファインチューニングが必要であり、計算コストが高く、効率的な展開を妨げています。さらに、既存の手法は複数の被写体を生成する際に、しばしば被写体間で特徴が混ざり合うという問題に直面しています。本論文では、ファインチューニングなしで効率的でパーソナライズされた複数被写体のテキストから画像への生成を可能にするFastComposerを提案します。FastComposerは、画像エンコーダによって抽出された被写体埋め込みを用いて、拡散モデルの一般的なテキスト条件付けを強化し、被写体画像とテキスト指示に基づいてフォワードパスのみでパーソナライズされた画像生成を実現します。複数被写体生成における同一性の混ざり合い問題に対処するため、FastComposerはトレーニング中にクロスアテンションの局所化監視を提案し、参照被写体のアテンションがターゲット画像の正しい領域に局在化することを強制します。被写体埋め込みを単純に条件付けすると被写体の過学習が起こります。FastComposerは、デノイジングステップでの遅延被写体条件付けを提案し、被写体駆動画像生成において同一性と編集可能性の両方を維持します。FastComposerは、異なるスタイル、アクション、コンテキストを持つ複数の未知の個人の画像を生成します。ファインチューニングベースの手法と比較して300倍から2500倍の高速化を達成し、新しい被写体に対して追加のストレージを必要としません。FastComposerは、効率的でパーソナライズされた高品質な複数被写体画像作成の道を開きます。コード、モデル、データセットはhttps://github.com/mit-han-lab/fastcomposerで公開されています。
テキストと対応する画像が意味的に整合しているかどうかを自動的に判定することは、視覚言語モデルにとって重要な課題であり、テキストから画像、画像からテキストの生成タスクに応用されています。本研究では、テキストと画像の整合性を自動的に評価する手法を探ります。まず、SeeTRUEを紹介します。これは、テキストから画像および画像からテキストの生成タスクにわたる複数のデータセットを網羅した包括的な評価セットで、与えられたテキストと画像のペアが意味的に整合しているかどうかの人間による判断を含みます。次に、整合性を判定する2つの自動手法を説明します。1つ目は、質問生成と視覚的質問応答モデルに基づくパイプラインを用いる手法、2つ目は、マルチモーダル事前学習モデルをファインチューニングするエンドツーエンドの分類アプローチを採用する手法です。どちらの手法も、複雑な構成や非自然な画像を含む難しいケースにおいて、従来のアプローチを大幅に上回る性能を示しました。最後に、我々の手法が画像と与えられたテキストの間の特定の不一致を特定する方法と、テキストから画像の生成において候補を自動的に再ランク付けする方法を実証します。
人間は単一の画像を、相互作用が可能な複数の潜在的な物体として容易に理解することができます。私たちはこの能力を用いて、世界との相互作用を計画し、実際に相互作用することなく新しい物体を迅速に理解します。本論文では、機械に同様の能力を付与し、知的なエージェントが3Dシーンをより良く探索したり物体を操作したりできるようにすることを目指します。私たちのアプローチは、物体の3D位置、物理的特性、およびアフォーダンスを予測するトランスフォーマーベースのモデルです。このモデルを強化するため、インターネット動画、エゴセントリック動画、室内画像からなるデータセットを収集し、アプローチの訓練と検証を行いました。私たちのモデルは、収集したデータにおいて高い性能を発揮し、ロボティクスデータに対しても良好な汎化性能を示します。
オンライン継続学習(OCL)の研究は、主にエージェントの生涯を通じて固定された限られたストレージ割り当ての中で、破滅的な忘却を緩和することに焦点を当ててきました。しかし、データストレージのコストが低下するにつれ、これらの前提に従わない幅広いアプリケーションが注目されています。これらのケースでは、主な懸念はストレージではなく、計算コストの管理にあります。本論文では、このような設定を対象とし、ストレージ制約を緩和し、固定された限られた経済的予算を重視することで、オンライン継続学習問題を調査します。我々は、kNN分類器と汎用の事前学習済み特徴抽出器を使用して、小さな計算予算の下で受信データストリーム全体をコンパクトに保存し活用するシンプルなアルゴリズムを提供します。このアルゴリズムは、継続学習にとって魅力的な一貫性の特性を提供します:過去に見たデータを決して忘れません。我々は、2つの大規模なOCLデータセットにおいて新たな最先端を設定しました:712クラスにわたる39Mの画像を持つContinual LOCalization(CLOC)と、10,788クラスにわたる580Kの画像を持つContinual Google Landmarks V2(CGLM)です。我々の手法は、はるかに高い計算予算を持つ手法を上回り、過去データの破滅的忘却を減らし、急速に変化するデータストリームに迅速に適応する点で優れています。我々は、結果を再現するためのコードをhttps://github.com/drimpossible/ACMで提供しています。