翻訳付きの日次キュレーションされたAI研究論文
大規模なテキストから画像への拡散モデルの生成事前分布は、多様な視覚モダリティにおける新たな生成および編集アプリケーションの幅広い可能性を可能にします。しかし、これらの事前分布を複数の画像(例えば、ビデオ)として表現される複雑な視覚モダリティに適応させる際、一連の画像間で一貫性を達成することは困難です。本論文では、この課題に対処するために、新規の手法である協調的スコア蒸留(Collaborative Score Distillation, CSD)を提案します。CSDは、Stein変分勾配降下法(Stein Variational Gradient Descent, SVGD)に基づいています。具体的には、複数のサンプルをSVGD更新における「粒子」として考慮し、それらのスコア関数を組み合わせて、一連の画像にわたる生成事前分布を同期して蒸留することを提案します。これにより、CSDは2D画像間での情報のシームレスな統合を促進し、複数のサンプルにわたる一貫した視覚的合成を実現します。我々は、パノラマ画像、ビデオ、3Dシーンの視覚的編集を含む多様なタスクにおいて、CSDの有効性を示します。我々の結果は、CSDがサンプル間の一貫性を向上させる汎用的な手法としての能力を強調し、それによってテキストから画像への拡散モデルの適用範囲を広げることを示しています。
微分方程式のための機械学習は、数値解法に対する計算効率の良い代替手段を切り開き、科学と工学において広範な影響をもたらす可能性があります。現在のアルゴリズムは通常、特定の設定に合わせたシミュレーションデータを必要としますが、代わりに、異種の情報源から有用な情報を学習したり、不完全で雑多な実世界の動的システム観測データから学習したりすることが望まれる場合があります。本研究では、自己教師あり学習(SSL)のためのジョイント埋め込み手法を実装することで、異種データから偏微分方程式(PDE)の汎用的な表現を学習します。SSLは、コンピュータビジョン分野で顕著な成功を収めている教師なし表現学習のフレームワークです。私たちの表現は、PDEの係数を回帰するといった不変タスクにおいてベースラインアプローチを上回るだけでなく、ニューラルソルバーのタイムステッピング性能も向上させます。私たちの提案する方法論が、PDEのための汎用基盤モデルの開発に役立つことを期待しています。
本論文では、3Dオートデコーダを中核とした静的および関節付き3Dアセット生成の新たなアプローチを提案する。3Dオートデコーダフレームワークは、ターゲットデータセットから学習した特性を潜在空間に埋め込み、それをボリューム表現にデコードすることで、視点整合性のある外観と形状をレンダリングする。次に、適切な中間ボリューム潜在空間を特定し、堅牢な正規化および非正規化操作を導入することで、剛体または関節付きオブジェクトの2D画像または単眼動画から3D拡散を学習する。本手法は、既存のカメラ監視を使用する場合も、カメラ情報を全く使用しない場合も柔軟に対応可能であり、代わりにトレーニング中に効率的に学習する。評価の結果、本手法の生成結果は、合成オブジェクトの多視点画像データセット、移動する人物の実世界動画、および大規模な静的オブジェクトの実動画データセットを含む様々なベンチマークデータセットと評価指標において、最先端の代替手法を凌駕することが実証された。
キャリブレーションされたシーンの画像セットが与えられた場合、本手法は3Dプリミティブを用いて、シンプルでコンパクトかつ実用的な3D世界表現を生成する。多くの手法が高精細な3Dシーンの復元に焦点を当てる中、我々はシーンを少数のテクスチャ付きプリミティブからなる中レベルの3D表現に解析することに注力する。このような表現は解釈が容易で、操作が簡単であり、物理ベースのシミュレーションに適している。さらに、3D入力データに依存する既存のプリミティブ分解手法とは異なり、本手法は微分可能レンダリングを通じて直接画像上で動作する。具体的には、プリミティブをテクスチャ付き超二次曲面メッシュとしてモデル化し、画像レンダリング損失を用いてそのパラメータをゼロから最適化する。各プリミティブの透明度をモデル化することが最適化において重要であり、また可変数のプリミティブを扱うことを可能にすることを強調する。結果として得られるテクスチャ付きプリミティブは、入力画像を忠実に再構築し、可視の3D点を正確にモデル化すると同時に、見えない物体領域のアモーダル形状補完を提供する。DTUの多様なシーンにおいて、本手法を最先端の手法と比較し、BlendedMVSとNerfstudioからの実写キャプチャに対する頑健性を実証する。また、本手法の結果を用いてシーンを容易に編集したり、物理シミュレーションを実行したりする方法を示す。コードとビデオ結果はhttps://www.tmonnier.com/DBWで公開されている。
ビデオと言語の事前学習(VLP)は、様々な視覚と言語タスクに汎化する能力から、その重要性が高まっています。しかし、既存のエゴセントリックVLPフレームワークは、ビデオと言語のエンコーダを分離しており、タスク固有のクロスモーダル情報はファインチューニング中にのみ学習されるため、統一システムの開発が制限されています。本研究では、第2世代のエゴセントリックビデオ言語事前学習(EgoVLPv2)を紹介します。これは、前世代から大幅に改善されたもので、ビデオと言語のバックボーンに直接クロスモーダル融合を組み込んでいます。EgoVLPv2は、事前学習中に強力なビデオテキスト表現を学習し、クロスモーダルアテンションモジュールを再利用して、異なる下流タスクを柔軟かつ効率的にサポートし、ファインチューニングコストを削減します。さらに、提案されたバックボーン内融合戦略は、追加の融合専用レイヤーを積み重ねるよりも軽量で計算効率が高いです。幅広いVLタスクにおける大規模な実験により、EgoVLPv2の有効性が実証され、全ての下流タスクにおいて強力なベースラインを一貫して上回る最先端の性能を達成しました。プロジェクトページはhttps://shramanpramanick.github.io/EgoVLPv2/でご覧いただけます。
高品質で多様な3D関節デジタルヒューマンアセットへのアクセスは、仮想現実からソーシャルプラットフォームまで、さまざまなアプリケーションにおいて極めて重要です。3D生成敵対ネットワーク(GAN)などの生成アプローチは、手間のかかる手動コンテンツ作成ツールを急速に置き換えつつあります。しかし、既存の3D GANフレームワークは通常、テンプレートメッシュ(高速だが品質が限定的)またはボリューム(高容量だがレンダリングが遅い)に依存したシーン表現を利用しており、これがGAN設定における3D忠実度を制限しています。本研究では、関節デジタルヒューマンのための新しい3Dオブジェクト表現として、階層化サーフェスボリューム(LSV)を提案します。LSVは、従来のテンプレートを囲む複数のテクスチャ付きメッシュ層を使用して人体を表現します。これらの層は、高速な微分可能ラスタライゼーションを用いたアルファ合成でレンダリングされ、テンプレート周囲の有限厚さの多様体に容量を割り当てるボリューム表現として解釈できます。従来の単層テンプレートでは髪やアクセサリーなどの細かい表面外の詳細を表現するのが困難でしたが、我々のサーフェスボリュームはそのような詳細を自然に捉えます。LSVは関節化可能であり、2Dジェネレータが個々の層のRGBAテクスチャを合成することを学習するGAN設定において、卓越した効率性を示します。非構造化の単一視点2D画像データセットで学習された我々のLSV-GANは、視点非整合な2Dアップサンプリングネットワークを必要とせずに、高品質で視点整合性のある3D関節デジタルヒューマンを生成します。
先行研究では、テスト時に訓練済みモデルをさらに改善するための一般的なフレームワークとしてテスト時訓練(TTT)が確立されています。各テストインスタンスに対して予測を行う前に、マスク付きオートエンコーダーを用いた画像再構成などの自己教師ありタスクを使用して、同じインスタンス上でモデルを訓練します。本研究では、TTTをストリーミング設定に拡張します。ここでは、複数のテストインスタンス(本研究ではビデオフレーム)が時間順に到着します。我々の拡張はオンラインTTTです:現在のモデルは前のモデルから初期化され、現在のフレームと直近の小さなウィンドウのフレーム上で訓練されます。オンラインTTTは、3つの実世界のデータセットにおける4つのタスクで、固定モデルのベースラインを大幅に上回りました。インスタンスセグメンテーションとパノプティックセグメンテーションでは、それぞれ45%と66%の相対的な改善が見られました。驚くべきことに、オンラインTTTは、時間順序に関係なくテストビデオ全体のすべてのフレームにアクセスして訓練するオフライン変種をも上回りました。これは、合成ビデオを使用した以前の知見とは異なります。我々は、オンラインTTTがオフラインTTTに対して持つ利点として局所性を概念化します。局所性の役割を、アブレーションとバイアス-バリアンスのトレードオフに基づく理論を用いて分析します。