翻訳付きの日次キュレーションされたAI研究論文
拡散モデルは現在、大規模データセットへの比類のないスケーリング能力により、データ駆動型の画像合成分野を支配しています。本論文では、人気のADM拡散モデルアーキテクチャにおいて、その高レベルな構造を変更することなく、不均一で非効率なトレーニングの原因を特定し、修正します。トレーニング過程におけるネットワークの活性化と重みの制御不能な大きさの変化と不均衡を観察し、活性化、重み、更新の大きさを期待値で保存するようにネットワーク層を再設計しました。この哲学を体系的に適用することで、観察されたドリフトと不均衡を排除し、同等の計算複雑度で大幅に優れたネットワークを実現できることがわかりました。私たちの修正により、ImageNet-512合成における従来の最高記録FID 2.41を、高速な決定論的サンプリングを用いて1.81に改善しました。 独立した貢献として、トレーニング実行完了後に指数移動平均(EMA)パラメータを事後的に設定する方法を提示します。これにより、複数のトレーニング実行を必要とせずにEMAの長さを精密に調整できるようになり、ネットワークアーキテクチャ、トレーニング時間、ガイダンスとの驚くべき相互作用を明らかにします。
「ImageDream」を紹介します。これは、3Dオブジェクト生成のための革新的な画像プロンプト・マルチビューディフュージョンモデルです。ImageDreamは、既存の最先端の画像条件付き手法と比較して、より高品質な3Dモデルを生成する能力で際立っています。私たちのアプローチでは、画像内のオブジェクトに対して正準カメラ座標系を利用し、視覚的な幾何学の精度を向上させています。このモデルは、入力画像に基づいてディフュージョンモデル内の各ブロックでさまざまなレベルの制御を可能にするように設計されており、グローバル制御はオブジェクト全体のレイアウトを形作り、ローカル制御は画像の詳細を微調整します。ImageDreamの有効性は、標準プロンプトリストを使用した広範な評価を通じて実証されています。詳細については、プロジェクトページ(https://Image-Dream.github.io)をご覧ください。
リライティングの忠実度は、ジオメトリと外観表現の両方によって制限されています。ジオメトリに関しては、メッシュとボリュームトリックの両アプローチとも、3Dヘアジオメトリのような複雑な構造をモデル化するのが困難です。外観に関しては、既存のリライティングモデルは忠実度が限られており、高解像度の連続環境でのリアルタイムレンダリングにはしばしば遅すぎます。本研究では、Relightable Gaussian Codec Avatarsを提案します。これは、高忠実度でリライト可能な頭部アバターを構築し、新しい表情を生成するためにアニメーション化できる手法です。3Dガウシアンに基づくジオメトリモデルは、動的な顔シーケンスにおける髪の毛や毛穴などの3D整合性のあるサブミリメートル詳細を捉えることができます。人間の頭部の目、肌、髪などの多様な材質を統一的な方法でサポートするために、学習可能な放射伝達に基づく新しいリライト可能な外観モデルを提案します。拡散成分のためのグローバルイルミネーション対応の球面調和関数と共に、球面ガウシアンを使用して空間的全周波数反射を伴うリアルタイムリライティングを実現します。この外観モデルは、点光源と連続照明の両方で効率的にリライトできます。さらに、リライト可能な明示的な目モデルを導入することで、目の反射の忠実度を向上させ、明示的な視線制御を可能にします。本手法は、リアルタイム性能を損なうことなく既存のアプローチを上回ります。また、テザードされたコンシューマーVRヘッドセット上でのアバターのリアルタイムリライティングを実証し、本アバターの効率性と忠実度を示します。
X-Adapterを紹介します。これは、事前学習済みのプラグアンドプレイモジュール(例:ControlNet、LoRA)を、追加の再学習なしにアップグレードされたテキストから画像への拡散モデル(例:SDXL)で直接動作させるためのユニバーサルアップグレーダーです。この目標を達成するために、新しいテキストと画像のデータペアを使用して、凍結されたアップグレードモデルを制御する追加のネットワークを訓練します。具体的には、X-Adapterは異なるプラグインのコネクタを保持するために、旧モデルの凍結されたコピーを保持します。さらに、X-Adapterは異なるバージョンのモデル間のデコーダを橋渡しするための訓練可能なマッピング層を追加し、特徴の再マッピングを行います。再マップされた特徴は、アップグレードされたモデルのガイダンスとして使用されます。X-Adapterのガイダンス能力を強化するために、アップグレードされたモデルに対してnull-text訓練戦略を採用します。訓練後、X-Adapterとアップグレードされたモデルの初期潜在変数を整合させるために、2段階のノイズ除去戦略を導入します。これらの戦略のおかげで、X-Adapterはさまざまなプラグインとのユニバーサルな互換性を示し、異なるバージョンのプラグインが一緒に動作することを可能にし、拡散コミュニティの機能性を拡張します。提案手法の有効性を検証するために、広範な実験を行い、その結果、X-Adapterがアップグレードされた基盤拡散モデルでのより広範な応用を促進する可能性があることを示します。
マルチモーダル大規模言語モデル(MLLM)は、その強力なマルチモーダル理解能力により、大きな注目を集めています。しかし、既存の研究はモダリティ固有のエンコーダに大きく依存しており、これらのエンコーダは通常、アーキテクチャが異なり、一般的なモダリティに限定されています。本論文では、8つのモダリティを言語に統一的なフレームワークで整列させるMLLMであるOneLLMを提案します。これを実現するために、統一されたマルチモーダルエンコーダと段階的なマルチモーダル整列パイプラインを採用しています。具体的には、まず視覚エンコーダとLLMを接続するための画像投影モジュールを訓練します。次に、複数の画像投影モジュールと動的ルーティングを組み合わせて、ユニバーサル投影モジュール(UPM)を構築します。最後に、UPMを使用して、より多くのモダリティをLLMに段階的に整列させます。OneLLMの指示追従能力を最大限に活用するために、画像、音声、動画、点群、深度/法線マップ、IMU、fMRI脳活動を含む2M項目からなる包括的なマルチモーダル指示データセットも作成しました。OneLLMは、マルチモーダルキャプショニング、質問応答、推論などのタスクを含む25の多様なベンチマークで評価され、優れた性能を発揮しています。コード、データ、モデル、オンラインデモはhttps://github.com/csuhan/OneLLMで公開されています。
拡散モデルは最近、フォトリアルな画像生成能力により画像合成の分野に革命をもたらしました。しかし、拡散モデルの主要な欠点の一つは、画像生成プロセスが高コストであることです。ランダムノイズから画像を反復的に精緻化するために、大規模な画像間ネットワークを何度も適用する必要があります。最近の多くの研究では、必要なステップ数を削減する技術が提案されていますが、それらは一般的に基礎となるノイズ除去ネットワークをブラックボックスとして扱っています。本研究では、ネットワーク内の層の挙動を調査し、1) 層の出力が時間とともに滑らかに変化すること、2) 層が明確な変化パターンを示すこと、3) ステップ間の変化が非常に小さいことが多いことを発見しました。私たちは、ノイズ除去ネットワークにおける多くの層計算が冗長であると仮説を立てました。これを活用して、前のステップの層ブロックの出力を再利用することで推論を高速化するブロックキャッシングを導入しました。さらに、各ブロックの時間ステップにわたる変化に基づいてキャッシングスケジュールを自動的に決定する技術を提案します。実験では、FID、人間による評価、および定性的分析を通じて、ブロックキャッシングが同じ計算コストでより高い視覚品質の画像を生成できることを示します。これを、異なる最先端モデル(LDMおよびEMU)およびソルバー(DDIMおよびDPM)で実証します。
本論文では、拡散モデルベースの画像生成における一般化された深度条件付けを可能にするLooseControlを提案します。深度条件付け画像生成のSOTAであるControlNetは、詳細な深度マップをガイダンスとして必要とし、優れた結果を生み出しますが、多くのシナリオでそのような正確な深度マップを作成することは困難です。本論文では、多くの新しいコンテンツ作成ワークフローを可能にする一般化された深度条件付けのバージョンを紹介します。具体的には、(C1) シーンの境界条件のみでシーンを大まかに指定するためのシーン境界制御と、(C2) 対象物の正確な形状や外観ではなく、レイアウト位置を指定するための3Dボックス制御を可能にします。LooseControlを使用することで、テキストガイダンスとともに、シーンの境界と主要なオブジェクトの位置を指定するだけで、複雑な環境(例:部屋、街並みなど)を作成できます。さらに、結果を洗練するための2つの編集メカニズムを提供します:(E1) 3Dボックス編集は、画像のスタイルを固定したまま、ボックスを変更、追加、または削除することで画像を洗練します。これにより、編集されたボックスによる変更以外の最小限の変更がもたらされます。(E2) 属性編集は、シーンの特定の側面(例:全体的なオブジェクト密度や特定のオブジェクト)を変更するための可能な編集方向を提案します。ベースラインとの広範なテストと比較により、本手法の汎用性が実証されています。LooseControlは、複雑な環境を簡単に作成するための重要なデザインツールとなり、他のガイダンスチャネルにも拡張できると信じています。コードと詳細情報はhttps://shariqfarooq123.github.io/loose-control/で入手可能です。
テキストから画像を生成するモデルのカスタマイズ技術は、これまで実現が困難だった幅広いアプリケーションの道を開き、多様な文脈やスタイルにおいて特定の概念を生成することを可能にしました。既存の手法は、個々の概念または限られた事前定義された概念セットに対して高忠実度のカスタマイズを実現していますが、単一のモデルが無数の概念をシームレスにレンダリングするスケーラビリティを達成するには至っていません。本論文では、個別の概念に対して独立にファインチューニングされたカスタマイズモデルを効率的に統合することを目的とした「モジュラーカスタマイズ」という新たな問題に取り組みます。これにより、統合されたモデルは、忠実度を損なうことなく、追加の計算コストを発生させることなく、1つの画像内で複数の概念を同時に合成することが可能になります。 この問題に対処するため、我々は「直交適応(Orthogonal Adaptation)」という手法を提案します。この手法は、ファインチューニング中に互いにアクセスできないカスタマイズモデルが、直交する残差重みを持つように設計されています。これにより、推論時にカスタマイズモデルを最小限の干渉で加算することが可能になります。 提案手法はシンプルで汎用性が高く、モデルアーキテクチャ内のほぼすべての最適化可能な重みに適用できます。定量的および定性的な評価を通じて、我々の手法は効率性と同一性の保持において関連するベースラインを一貫して上回り、拡散モデルのスケーラブルなカスタマイズに向けた大きな進展を示しています。
ビデオの視覚的コンテンツの編集は依然として大きな課題であり、主に2つの問題が存在します:1)直接的な簡単なユーザー制御による編集、2)形状、表情、レイアウトを変更した後の自然な編集結果と、見苦しい歪みやアーティファクトの回避です。最近の画像ベースのドラッグスタイル編集技術であるDragGANにインスパイアされ、我々は上記の問題に対処するため、DragVideoを提案します。ここでは、同様のドラッグスタイルのユーザーインタラクションを採用し、時間的な一貫性を維持しながらビデオコンテンツを編集します。DragDiffusionと同様に最近の拡散モデルを活用したDragVideoは、新しいDrag-on-Video U-Net(DoVe)編集手法を含み、ビデオU-Netによって生成された拡散ビデオ潜在変数を最適化して、望ましい制御を実現します。具体的には、Sample-specific LoRAファインチューニングとMutual Self-Attention制御を使用して、DoVe手法によるビデオの忠実な再構築を保証します。また、ドラッグスタイルのビデオ編集のための一連のテスト例を提示し、モーション編集、スケルトン編集など、幅広い挑戦的な編集タスクにわたる広範な実験を行い、DragVideoの汎用性と一般性を強調します。DragVideoのウェブユーザーインターフェースを含むコードを公開する予定です。
この時代において、大規模言語モデルやテキストから画像を生成するモデルの成功は、大規模データセットの推進力に起因しています。しかし、3D視覚の領域では、ObjaverseやMVImgNetのような大規模な合成および実写オブジェクトデータで訓練されたモデルが顕著な進歩を遂げている一方で、人間中心のタスク領域では同レベルの進展が見られません。これは、部分的に大規模な人間データセットの不足によるものです。既存の高精細3D人間キャプチャデータセットは、大規模な高品質3D人間データの取得が非常に困難であるため、中規模のままです。このギャップを埋めるため、私たちはMVHumanNetを提案します。これは4,500の人間IDのマルチビューヒューマンアクションシーケンスを含むデータセットです。私たちの研究の主な焦点は、多様なIDと日常的な服装を特徴とする人間データを、マルチビューヒューマンキャプチャシステムを使用して収集することにあります。このシステムにより、容易にスケーラブルなデータ収集が可能となります。私たちのデータセットには、9,000の日常的な服装、60,000のモーションシーケンス、6億4,500万フレームが含まれており、人間マスク、カメラパラメータ、2Dおよび3Dキーポイント、SMPL/SMPLXパラメータ、対応するテキスト記述などの広範なアノテーションが付属しています。MVHumanNetの潜在能力をさまざまな2Dおよび3D視覚タスクで探るため、ビュー一貫性のあるアクション認識、人間のNeRF再構成、テキスト駆動のビュー制約なしの人間画像生成、および2Dビュー制約なしの人間画像と3Dアバター生成に関するパイロットスタディを実施しました。広範な実験により、MVHumanNetのスケールがもたらす性能向上と効果的な応用が実証されました。現在最大規模の3D人間データセットとして、MVHumanNetのデータとアノテーションの公開が、大規模な3D人間中心タスクの領域におけるさらなる革新を促進することを期待しています。
エージェントベースモデリングは数十年にわたり存在し、社会科学や自然科学の幅広い分野で応用されてきました。この研究手法の範囲は、大規模言語モデル(LLM)が提供する新たな可能性を取り込むことで、劇的に拡大しようとしています。生成的エージェントベースモデル(GABM)は、単にエージェントが互いに会話する従来のエージェントベースモデル(ABM)ではありません。むしろ、GABMはLLMを使用して状況に常識を適用し、「合理的に」行動し、一般的な意味的知識を想起し、アプリなどのデジタル技術を制御するためのAPI呼び出しを生成し、シミュレーション内および外部から観察する研究者との間でコミュニケーションを行います。ここでは、GABMの構築と操作を容易にするライブラリ「Concordia」を紹介します。Concordiaは、物理的またはデジタル的に基盤を置いた環境の言語媒介シミュレーションを簡単に構築できるようにします。Concordiaのエージェントは、LLM呼び出しと連想記憶検索という2つの基本的な操作を仲介する柔軟なコンポーネントシステムを使用して行動を生成します。テーブルトークRPGにインスパイアされた「ゲームマスター(GM)」と呼ばれる特別なエージェントが、エージェントが相互作用する環境をシミュレートする役割を担います。エージェントは、自然言語で何をしたいかを記述することで行動を起こします。GMはその行動を適切な実装に変換します。物理的な世界をシミュレートする場合、GMはエージェントの行動の物理的な妥当性をチェックし、その効果を記述します。アプリやサービスなどの技術をシミュレートするデジタル環境では、GMは外部ツール(例えば、BardやChatGPTなどの汎用AIアシスタント、カレンダー、メール、検索などのデジタルアプリ)と統合するためのAPI呼び出しを処理する場合があります。Concordiaは、科学研究や実際のデジタルサービスのパフォーマンス評価のためにユーザーをシミュレートしたり、合成データを生成したりする幅広いアプリケーションをサポートするように設計されています。
Neural Radiance Fields (NeRFs) などの3D再構成手法は、複雑なシーンのフォトリアルな新規視点レンダリングに優れています。しかし、高品質なNeRFを復元するには通常、数十から数百枚の入力画像が必要であり、時間のかかる撮影プロセスが求められます。本研究では、わずかな写真のみを使用して現実世界のシーンを再構成するReconFusionを提案します。本手法は、合成データと多視点データセットで学習された拡散事前分布を活用し、入力画像セットで捕捉された範囲を超える新規カメラポーズにおけるNeRFベースの3D再構成パイプラインを正則化します。本手法は、観測された領域の外観を維持しつつ、制約の少ない領域において現実的な形状とテクスチャを合成します。前方視点および360度シーンを含む様々な現実世界データセットを用いて広範な評価を行い、従来の少視点NeRF再構成手法と比較して大幅な性能向上を示しています。
本論文では、実画像における物体の粗さ、金属質感、アルベド、透明性といった材質属性を制御する手法を提案する。本手法は、写実的な画像生成で知られるテキストto画像モデルの生成事前分布を活用し、スカラー値と指示を用いて低レベルの材質特性を変更する。制御された材質属性を持つデータセットの不足に対処するため、物理ベースの材質を用いた物体中心の合成データセットを生成した。この合成データセット上で修正済みの事前学習済みテキストto画像モデルをファインチューニングすることで、実世界の画像において他の属性を保持したまま材質特性を編集可能にする。さらに、本モデルを材質編集済みNeRFに適用する可能性を示す。
最近、テキストベースのモーション生成において大きな進展が見られ、テキスト記述に準拠した多様で高品質な人間のモーションを生成することが可能になりました。しかし、詳細なテキスト記述が付与されたデータセットの不足により、細粒度やスタイル化されたモーションの生成は依然として課題となっています。分割統治戦略を採用することで、我々は人間のモーション生成のための新しいフレームワークであるFine-Grained Human Motion Diffusion Model(FG-MDM)を提案します。具体的には、まず大規模言語モデル(GPT-3.5)を活用して、従来の曖昧なテキスト注釈を身体の異なる部位の細粒度記述に解析します。次に、これらの細粒度記述を用いて、Transformerベースの拡散モデルをガイドします。FG-MDMは、トレーニングデータの分布外であっても、細粒度でスタイル化されたモーションを生成することができます。実験結果は、FG-MDMが従来の手法を凌駕し、特に強力な汎化能力を有することを示しています。我々は、HumanML3DとKITのための細粒度テキスト注釈を公開する予定です。
私たちの視覚世界の理解は、視覚的実体の異なる側面を特徴づける様々な概念軸を中心に展開しています。異なる概念軸は、例えば色のように言語によって容易に指定できますが、各軸に沿った正確な視覚的ニュアンスは、例えば特定の絵画スタイルのように、言語的表現の限界をしばしば超えます。本研究では、大規模な事前学習済み視覚言語モデルを蒸留するだけで、言語情報を取り入れた視覚的概念表現を学習することを目指します。具体的には、事前学習済みのテキストから画像生成(T2I)モデルを通じて入力画像を再現することを目的として、言語情報を取り入れた概念軸のセットに関連する情報をエンコードするための一連の概念エンコーダを訓練します。異なる概念エンコーダのより良い分離を促進するために、事前学習済みの視覚質問応答(VQA)モデルから得られたテキスト埋め込みのセットに概念埋め込みを固定します。推論時には、モデルは新しいテスト画像から様々な軸に沿った概念埋め込みを抽出し、それらを再混合して視覚的概念の新しい組み合わせを持つ画像を生成できます。軽量なテスト時微調整手順を用いることで、訓練時には見られなかった新しい概念にも一般化することが可能です。
仮想アシスタントとのインタラクションは通常、トリガーフレーズに続くコマンドで開始されます。本研究では、トリガーフレーズを必要とせず、より自然なインタラクションを実現する可能性を探ります。私たちの目標は、デバイスのマイクで録音されたストリーミング音声から得られる信号に基づいて、ユーザーが仮想アシスタントに話しかけたかどうかを判断することです。このタスクに対処するため、自動音声認識システムからの1-best仮説とデコーダ信号を、オーディオエンコーダからの音響表現と組み合わせ、大規模言語モデル(LLM)への入力特徴として使用します。特に、少量のトレーニングデータのみを必要とし、デバイス上で単一の凍結されたLLMのみが利用可能なシナリオで動作する、データとリソース効率の高いシステムに注目しています。このため、低ランク適応とプレフィックスチューニングを組み合わせて、8万件以下のマルチモーダルデータでモデルをトレーニングします。提案システムをユニモーダルベースラインと比較し、マルチモーダルアプローチがトレーニングデータの一部のみを使用しながら、より低い等誤り率(EER)を達成することを示します。また、低次元の専門的なオーディオ表現が、高次元の一般的なオーディオ表現よりも低いEERをもたらすことも示します。