翻訳付きの日次キュレーションされたAI研究論文
高度なマルチモーダル学習の時代において、GPT-4Vのようなマルチモーダル大規模言語モデル(MLLMs)は、言語と視覚要素を橋渡しする上で目覚ましい進歩を遂げてきました。しかし、クローズドソースの性質と膨大な計算需要は、普遍的な使用と改変において大きな課題となっています。ここで、LLaVAやMiniGPT-4のようなオープンソースのMLLMsが登場し、さまざまなタスクにおいて画期的な成果を提示しています。これらの成果にもかかわらず、LLaVA-v1.5-13Bのようなモデルは依然として大量のリソースを必要とするため、計算効率は未解決の問題です。これらの課題に対処するため、私たちはTinyGPT-Vを紹介します。これは、驚異的なパフォーマンスと一般的な計算能力を兼ね備えた新世代のモデルです。トレーニングにはわずか24GのGPUを、推論には8GのGPUまたはCPUを必要とする点で際立っています。Phi-2を基盤として構築されたTinyGPT-Vは、効果的な言語バックボーンとBLIP-2またはCLIPの事前学習済み視覚モジュールを組み合わせています。TinyGPT-Vの2.8Bパラメータは、8Gのさまざまなデバイスでのローカル展開と推論タスクに適した独自の量子化プロセスを経ることができます。私たちの研究は、コスト効率が高く、効率的で高性能なMLLMsを設計し、幅広い実世界のシナリオでの適用性を拡大するためのさらなる発展を促進します。さらに、本論文は、小さなバックボーンを介したマルチモーダル大規模言語モデルの新しいパラダイムを提案しています。私たちのコードとトレーニングウェイトは、それぞれhttps://github.com/DLYuanGod/TinyGPT-Vとhttps://huggingface.co/Tyrannosaurus/TinyGPT-Vに配置されています。
我々は、画像、テキスト、音声、アクションを理解し生成できる初の自己回帰型マルチモーダルモデルであるUnified-IO 2を発表します。異なるモダリティを統合するため、入力と出力(画像、テキスト、音声、アクション、バウンディングボックスなど)を共有の意味空間にトークン化し、単一のエンコーダ-デコーダトランスフォーマーモデルで処理します。これほど多様なモダリティでの学習は困難であるため、モデル学習を安定させるための様々なアーキテクチャ改良を提案します。我々は、多様なソースからなる大規模なマルチモーダル事前学習コーパスを用い、マルチモーダルなデノイザーの混合目的関数でモデルをゼロから学習させます。マルチモーダルな指示に従うなど、幅広いスキルを習得するため、プロンプトと拡張を伴う120のデータセットのアンサンブルを構築し、ファインチューニングを行います。単一の統合モデルであるUnified-IO 2は、GRITベンチマークで最先端の性能を達成し、画像生成と理解、自然言語理解、映像と音声の理解、ロボット操作など35以上のベンチマークで強力な結果を示します。我々は全てのモデルを研究コミュニティに公開します。
高品質で大規模なコーパスは、基盤モデル構築の礎である。本研究では、約95億トークンからなる多様で高品質な数学中心のコーパス「MathPile」を紹介する。その作成過程において、我々は「少ないほど良い」という原則を貫き、事前学習段階においてもデータの量よりも質の優位性を強く信じた。入念なデータ収集と処理には、複雑な前処理、事前フィルタリング、言語識別、クリーニング、フィルタリング、重複排除が含まれており、コーパスの高品質を保証している。さらに、下流のベンチマークテストセットに対してデータ汚染検出を実施し、重複を排除した。我々のMathPileが、言語モデルの数学的推論能力の向上に寄与することを期待している。今後の発展を促進するため、処理に使用したスクリプトとともに、\mathpileの異なるバージョンをオープンソース化する予定である。
本論文では、モバイルデバイス上で動作することを目的とした高性能なマルチモーダル視覚言語モデル(MMVLM)であるMobileVLMを提案する。MobileVLMは、モバイル向けに設計された多様なアーキテクチャと技術を統合したものであり、1.4Bおよび2.7Bパラメータ規模の言語モデルセット、CLIP形式で事前学習されたマルチモーダル視覚モデル、効率的なプロジェクターを介したクロスモダリティ相互作用から構成される。MobileVLMをいくつかの典型的なVLMベンチマークで評価した結果、本モデルはより大規模なモデルと同等の性能を示した。さらに重要なことに、Qualcomm Snapdragon 888 CPUおよびNVIDIA Jetson Orin GPU上での推論速度を測定し、それぞれ21.5トークン/秒および65.3トークン/秒という最先端の性能を達成した。本コードはhttps://github.com/Meituan-AutoML/MobileVLMで公開予定である。
密な手動アノテーションによるセグメンテーションマスクを不要とする、複数の教師なし画像セグメンテーション手法が提案されてきた。現在のモデルは、セマンティックセグメンテーション(例:STEGO)またはクラス非依存のインスタンスセグメンテーション(例:CutLER)のいずれかを個別に扱うが、両方(すなわち、パノプティックセグメンテーション)を同時に扱うものはない。本論文では、インスタンス、セマンティック、パノプティックといった様々な画像セグメンテーションタスクを実行可能な、新たな統一フレームワークを用いた教師なしユニバーサルセグメンテーションモデル(U2Seg)を提案する。U2Segは、自己教師ありモデルを活用した後にクラスタリングを行うことで、これらのセグメンテーションタスクのための擬似セマンティックラベルを生成する。各クラスタは、ピクセルの異なるセマンティックおよび/またはインスタンスの所属を表す。その後、これらの擬似セマンティックラベルを用いてモデルを自己学習させ、各タスクに特化した手法に対して大幅な性能向上を実現する。具体的には、COCOにおける教師なしインスタンスセグメンテーションではCutLERに対して+2.6 AP^{box}の向上、COCOStuffにおける教師なしセマンティックセグメンテーションではSTEGOに対して+7.0 PixelAccの向上を達成した。さらに、本手法は、これまで未開拓であった教師なしパノプティックセグメンテーションの新たなベースラインを確立する。U2Segはまた、少数ショットセグメンテーションのための強力な事前学習モデルでもあり、低データ体制(例:COCOラベルの1%のみ)で学習した場合、CutLERを+5.0 AP^{mask}上回る。本手法のシンプルでありながら効果的なアプローチが、教師なしユニバーサル画像セグメンテーションに関するさらなる研究を刺激することを期待する。
近年、4Dコンテンツ生成において目覚ましい進展が見られています。しかし、既存の手法は最適化時間が長い、モーションの制御性に欠ける、詳細度が低いといった課題を抱えています。本論文では、4D Gaussian Splatting表現を基盤とした効率的な4D生成フレームワークであるDreamGaussian4Dを提案します。我々の重要な洞察は、Gaussian Splattingにおける空間変換の明示的なモデリングが、暗黙的な表現と比較して4D生成設定により適しているという点です。DreamGaussian4Dは、最適化時間を数時間からわずか数分に短縮し、生成される3Dモーションの柔軟な制御を可能にし、3Dエンジンで効率的にレンダリング可能なアニメーションメッシュを生成します。
深層学習に基づく3Dビジョンにおいて、ニューラルラジアンスフィールド(NeRF)を基盤とした3D表現学習から新規視点合成(NVS)への応用まで、大きな進展を目撃してきました。しかし、既存の深層学習ベースの3Dビジョン向けシーンレベルデータセットは、合成環境に限定されているか、限られた実世界シーンのみを対象としており、非常に不十分です。この不十分さは、既存手法の包括的なベンチマークを妨げるだけでなく、深層学習ベースの3D分析で探求可能な範囲を制限しています。この重要なギャップを埋めるため、我々はDL3DV-10Kを提案します。これは大規模なシーンデータセットで、65種類の関心地点(POI)から撮影された10,510本の動画から得られた5,120万フレームを特徴とし、境界のあるシーンとないシーン、異なる反射率、透明度、照明条件をカバーしています。DL3DV-10Kを用いて最近のNVS手法の包括的なベンチマークを実施し、今後のNVS研究に向けた貴重な知見を得ました。さらに、DL3DV-10Kから一般化可能なNeRFを学習するパイロットスタディで有望な結果を得ており、3D表現学習の基盤モデルに向けた道を切り開くためには大規模なシーンレベルデータセットが必要であることを示しています。我々のDL3DV-10Kデータセット、ベンチマーク結果、およびモデルはhttps://dl3dv-10k.github.io/DL3DV-10K/で公開されます。
NeRFは3Dシーン再構成において大きな進歩を遂げ、様々な環境における複雑なディテールの捕捉を可能にしました。既存の手法は、ラディアンスフィールドのベイキングを活用することで、小規模シーンのリアルタイムレンダリングを実現することに成功しています。しかし、大規模シーンに適用する場合、これらの技術は計算リソース、メモリ、帯域幅の制約により、シームレスなリアルタイム体験を提供する上で重大な課題に直面します。本論文では、シーン全体を管理可能なブロックに分割し、各ブロックに独自の詳細レベル(Level-of-Detail)を設定することで、高忠実度、効率的なメモリ管理、高速なレンダリングを実現するCity-on-Webを提案します。同時に、トレーニングと推論プロセスを慎重に設計し、ウェブ上での最終的なレンダリング結果がトレーニングと一致するようにします。我々の新しい表現方法と慎重に設計されたトレーニング/推論プロセスにより、リソースが制約された環境下での大規模シーンのリアルタイムレンダリングを初めて実現しました。広範な実験結果は、我々の手法がウェブプラットフォーム上での大規模シーンのリアルタイムレンダリングを可能にし、RTX 3060 GPUを用いて1080P解像度で32FPSを達成しつつ、最先端の手法に匹敵する品質を同時に実現することを示しています。プロジェクトページ: https://ustc3dv.github.io/City-on-Web/
急速に進化するデジタルコンテンツ生成の領域において、焦点はテキストから画像(T2I)モデルから、より高度なビデオ拡散モデル、特にテキストからビデオ(T2V)および画像からビデオ(I2V)へと移行しています。本論文は、I2Vが提起する複雑な課題、すなわち静的な画像を動的でリアルなビデオシーケンスに変換しつつ、元の画像の忠実度を維持するという課題に取り組みます。従来の手法では、通常、画像全体を拡散プロセスに統合するか、事前学習済みエンコーダーを使用してクロスアテンションを行うことが一般的でした。しかし、これらのアプローチでは、T2Iモデルの基本的な重みを変更する必要があるため、その再利用性が制限されていました。我々は、このような制限を克服するための新しい解決策、すなわちI2V-Adapterを提案します。我々のアプローチは、T2Iモデルの構造的整合性とその内在するモーションモジュールを維持します。I2V-Adapterは、入力画像と並行してノイズの入ったビデオフレームを処理し、軽量なアダプターモジュールを利用することで動作します。このモジュールはブリッジとして機能し、入力とモデルの自己アテンションメカニズムを効率的に接続し、T2Iモデルの構造的変更を必要とせずに空間的詳細を維持します。さらに、I2V-Adapterは従来のモデルに比べてわずかなパラメータしか必要とせず、既存のコミュニティ主導のT2Iモデルや制御ツールとの互換性を確保します。我々の実験結果は、I2V-Adapterが高品質なビデオ出力を生成する能力を示しています。この性能とその汎用性、そして訓練可能なパラメータの削減は、特にクリエイティブなアプリケーションにおけるAI駆動のビデオ生成分野における大きな進歩を表しています。
物理ベースのキャラクターアニメーションを直感的な制御で生成することは、長年にわたり多くの応用が期待される望ましい課題でした。しかし、物理環境の複雑さと人間の言語の豊かさゆえに、高次元の人間の指示を反映した物理シミュレーションアニメーションを生成することは依然として困難な問題です。本論文では、InsActorを紹介します。これは、拡散ベースの人間動作モデルの最近の進展を活用し、指示駆動型の物理ベースキャラクターアニメーションを生成するための原理に基づいた生成フレームワークです。私たちのフレームワークは、柔軟な条件付き動作計画のために拡散ポリシーを採用することで、InsActorが高次元の人間の指示とキャラクターの動作との複雑な関係を捉えることを可能にします。計画された動作における無効な状態や実行不可能な状態遷移を克服するために、InsActorは低レベルのスキルを発見し、計画をコンパクトな潜在空間内の潜在スキルシーケンスにマッピングします。広範な実験により、InsActorが指示駆動型動作生成や指示駆動型ウェイポイントヘディングなど、さまざまなタスクにおいて最先端の結果を達成することが実証されています。特に、InsActorが高次元の人間の指示を用いて物理シミュレーションアニメーションを生成する能力は、豊富な指示セットを用いた長期的タスクの実行において特に貴重なツールとなります。
動的シーンの新視点合成は、興味深いながらも困難な課題である。近年の進展にもかかわらず、高解像度のフォトリアルな結果、リアルタイムレンダリング、そしてコンパクトなストレージを同時に達成することは依然として困難な課題である。これらの課題に対処するため、我々はSpacetime Gaussian Feature Splattingを提案する。これは、3つの重要なコンポーネントから構成される新しい動的シーン表現手法である。まず、時間的な不透明度とパラメトリックな動き/回転を3Dガウシアンに追加することで、表現力豊かなSpacetime Gaussiansを定式化する。これにより、Spacetime Gaussiansはシーン内の静的、動的、そして一時的な内容を捉えることができる。次に、球面調和関数をニューラル特徴量に置き換えるsplatted feature renderingを導入する。これらの特徴量は、視点や時間に依存する外観をモデル化しつつ、サイズを小さく保つことを可能にする。第三に、既存のパイプラインでは収束が難しい領域に新しいガウシアンをサンプリングするために、訓練誤差と粗い深度のガイダンスを活用する。いくつかの確立された実世界のデータセットでの実験により、我々の手法が最先端のレンダリング品質と速度を達成し、かつコンパクトなストレージを維持することが実証された。8K解像度において、我々のライトバージョンモデルはNvidia RTX 4090 GPU上で60 FPSでレンダリング可能である。
最先端の言語モデルは、利用可能な大規模なテキストデータコーパスにおいて最高の性能を達成するために、ますます大規模化しています。しかし、Transformerアーキテクチャの膨大なサイズにより、計算資源、環境、またはデバイス固有の制約内でモデルを展開することが困難になっています。私たちは、ゼロから小さなモデルを訓練する代わりに、既存の事前訓練済みモデルのデータ駆動型圧縮を探求します。そのために、ターゲット損失ランドスケープのKronecker分解された曲率近似を大規模言語モデルにスケーリングします。これにより、削除可能な構造の動的割り当てと、削除を考慮した残りの重みの更新の両方を計算することができます。私たちは、非構造化、半構造化、および構造化プルーニングのための一般的なフレームワークを提供し、重み間の相関をより多く捉えるために重み更新を改善しつつ、計算効率を維持します。実験的に、私たちの方法は、一連のOPTモデルとLlamav2-7Bの行と列を20%-30%プルーニングし、性能の低下をほとんど伴わず、大規模言語モデルの非構造化および半構造化プルーニングにおいて最先端の結果を達成します。
単一視点からの画像から3Dへの変換は不良設定問題であり、現在の拡散モデルを用いたニューラル再構築手法は、依然としてシーン固有の最適化に依存しており、その汎化能力が制限されています。既存手法の汎化性と一貫性に関する制約を克服するため、我々は新しいニューラルレンダリング技術を提案します。本手法は、符号付き距離関数を表面表現として採用し、ジオメトリエンコーディングボリュームとハイパーネットワークを通じて汎化可能な事前情報を組み込みます。具体的には、生成された多視点入力を基にニューラルエンコーディングボリュームを構築します。テスト時に、入力画像に基づいてSDFネットワークの重みを調整し、ハイパーネットワークを介してフィードフォワード方式で新しいシーンに適応できるようにします。合成ビューから生じるアーティファクトを軽減するため、各視点を個別に処理するのではなく、ボリュームトランスフォーマーモジュールを使用して画像特徴の集約を改善することを提案します。提案手法であるHyper-VolTranにより、シーン固有の最適化のボトルネックを回避し、複数の視点から生成された画像間の一貫性を維持します。実験結果は、提案手法の優位性を示しており、一貫した結果と迅速な生成が可能であることを実証しています。
ニューラルグラフィックスプリミティブは、グリッド状に配置された学習可能な特徴を保持する空間データ構造によってニューラルネットワークが拡張されると、より高速かつ高品質な結果を達成します。しかし、既存の特徴グリッドは、大きなメモリフットプリント(密または因数分解されたグリッド、ツリー、ハッシュテーブル)または低速なパフォーマンス(インデックス学習とベクトル量子化)のいずれかの欠点を抱えています。本論文では、学習済みプローブを備えたハッシュテーブルがこれらの欠点を解消し、サイズと速度の両面で優れた組み合わせを実現することを示します。推論は、同等の品質を維持しながらプローブなしのハッシュテーブルよりも高速であり、トレーニングはわずか1.2~2.6倍遅いだけで、従来のインデックス学習アプローチを大幅に上回ります。この定式化に至るために、すべての特徴グリッドを共通のフレームワークに当てはめました:それらはそれぞれ、特徴ベクトルのテーブルにインデックスを付けるルックアップ関数に対応します。このフレームワークでは、既存のデータ構造のルックアップ関数は、それらのインデックスの単純な算術的組み合わせによって結合でき、パレート最適な圧縮と速度を実現します。
現在の大規模拡散モデルは、テキスト、人間のポーズ、エッジなど多様な手がかりを解釈可能な条件付き画像合成において飛躍的な進歩を遂げています。しかし、その実現には膨大な計算資源と広範なデータ収集が必要であり、これがボトルネックとなっています。一方で、異なる制御に特化し、独自の潜在空間で動作する既存の拡散モデルを統合することは、互換性のない画像解像度や潜在空間埋め込み構造のため困難であり、それらの共同使用を妨げています。これらの制約に対処するため、我々は複数の制御信号を巧みに扱うリソース効率の良いテキスト・画像合成向けの新しい潜在拡散モデル「PanGu-Draw」を提案します。まず、リソース効率の良いTime-Decoupling Training Strategyを提案し、テキスト・画像モデルを構造生成器とテクスチャ生成器に分割します。各生成器はデータ利用と計算効率を最大化する訓練方法で訓練され、データ準備を48%削減し、訓練リソースを51%削減します。次に、異なる潜在空間と事前定義された解像度を持つ様々な事前訓練済み拡散モデルを統一的なノイズ除去プロセス内で協調的に使用可能にする「Coop-Diffusion」アルゴリズムを導入します。これにより、追加データや再訓練を必要とせずに任意の解像度でのマルチ制御画像合成が可能になります。PanGu-Drawの実証実験は、テキスト・画像合成およびマルチ制御画像生成における卓越した能力を示し、将来のモデル訓練効率と生成の多様性に向けた有望な方向性を示唆しています。最大規模の5B T2I PanGu-DrawモデルはAscendプラットフォームで公開されています。プロジェクトページ: https://pangu-draw.github.io
最近の主題駆動型画像生成の進展により、ゼロショット生成が可能となったが、重要な主題表現の正確な選択と焦点化は依然として課題である。この問題に対処するため、我々はSSR-Encoderを提案する。これは、単一または複数の参照画像から任意の主題を選択的に捕捉するために設計された新しいアーキテクチャである。SSR-Encoderは、テキストやマスクを含む様々なクエリモダリティに対応し、テスト時のファインチューニングを必要としない。SSR-Encoderは、クエリ入力を画像パッチと整合させるToken-to-Patch Alignerと、主題の細部特徴を抽出・保存するDetail-Preserving Subject Encoderを組み合わせており、これにより主題の埋め込みを生成する。これらの埋め込みは、元のテキスト埋め込みと組み合わせて生成プロセスを条件付ける。モデルの汎用性と効率性を特徴とするSSR-Encoderは、様々なカスタムモデルや制御モジュールに適応する。訓練を改善するためのEmbedding Consistency Regularization Lossによって強化され、我々の広範な実験は、多様で高品質な画像生成におけるその有効性を示し、幅広い適用可能性を示唆している。プロジェクトページ: https://ssr-encoder.github.io
テキストガイドによるドメイン適応と3D対応ポートレート生成は、様々な分野で多くの応用が可能です。しかし、学習データの不足や、多様な形状と外観を扱うことの難しさから、これらのタスクに対する既存の手法は、柔軟性の欠如、不安定性、低い忠実度といった問題を抱えています。本論文では、3D GANと拡散事前分布を組み合わせることで、テキストガイドによる3Dドメイン適応と生成を強化する新しいフレームワークDiffusionGAN3Dを提案します。具体的には、事前学習済みの3D生成モデル(例:EG3D)とテキストから画像への拡散モデルを統合します。前者は、テキストから安定かつ高品質なアバター生成のための強固な基盤を提供します。そして、拡散モデルは強力な事前分布を提供し、情報量のある方向性で3D生成器のファインチューニングをガイドすることで、柔軟で効率的なテキストガイドによるドメイン適応を実現します。ドメイン適応における多様性とテキストからアバターへの生成能力を向上させるために、相対距離損失とケース固有の学習可能なトライプレーンをそれぞれ導入します。さらに、上記の両タスクにおけるテクスチャ品質を向上させるために、段階的なテクスチャリファインメントモジュールを設計します。広範な実験により、提案フレームワークがドメイン適応とテキストからアバターへのタスクの両方で優れた結果を達成し、生成品質と効率の面で既存の手法を上回ることが実証されました。プロジェクトのホームページはhttps://younglbw.github.io/DiffusionGAN3D-homepage/にあります。
テキストから画像を生成するモデルは強力だが、使いこなすのが難しい。ユーザーはより良い画像を得るために特定のプロンプトを作成するが、生成される画像は繰り返しがちである。本論文では、ユーザーがより少ない労力で高品質で多様な画像を生成できるように支援するPrompt Expansionフレームワークを提案する。Prompt Expansionモデルはテキストクエリを入力として受け取り、最適化された拡張テキストプロンプトのセットを出力する。これらのプロンプトをテキストから画像を生成するモデルに渡すことで、より幅広く魅力的な画像を生成する。人間による評価実験を行った結果、Prompt Expansionを通じて生成された画像は、ベースライン手法で生成された画像よりも美的に優れ、多様性に富んでいることが示された。全体として、本論文はテキストから画像を生成する体験を改善するための新規かつ効果的なアプローチを提示している。
ノイズ除去拡散モデルの持つ本質的な生成能力は、入力画像に近い高品質な画像を生成空間内で最適化することを目的とする画像復元タスクに適している。本研究では、事前学習済みの拡散モデルを画像復元に適応させる方法を提案する。具体的には、復元対象の入力画像にノイズを加え、その後ノイズ除去を行うというシンプルな手法を用いる。この方法は、生成モデルの空間を制約する必要があるという観察に基づいている。この制約を、入力画像の特徴を捉えたアンカー画像セットを用いて生成モデルをファインチューニングすることで課す。制約された空間において、生成に用いられるサンプリング戦略を活用して画像復元を行う。既存の手法との比較評価を行い、複数の実世界の復元データセットにおいて、アイデンティティと画質の保持において優れた性能を示す。さらに、個人のアルバムをアンカー画像として使用し、生成空間を制約するパーソナライズド復元という重要な実用的応用も実証する。このアプローチにより、従来の手法では実現できなかった高周波詳細を正確に保持した結果を生成することが可能となる。プロジェクトウェブページ: https://gen2res.github.io.