翻訳付きの日次キュレーションされたAI研究論文
我々は、超人的なエージェントを実現するためには、将来のモデルには適切な訓練信号を提供するための超人的なフィードバックが必要であると提唱する。現在のアプローチでは、人間の選好から報酬モデルを訓練することが一般的であるが、これは人間のパフォーマンスレベルによってボトルネックが生じる可能性があり、さらに、これらの分離された凍結された報酬モデルは、LLM訓練中に改善することを学ぶことができない。本研究では、訓練中に言語モデル自体がLLM-as-a-Judgeプロンプティングを通じて自身の報酬を提供する、自己報酬型言語モデル(Self-Rewarding Language Models)を研究する。我々は、反復的DPO訓練中に、指示追従能力が向上するだけでなく、自身に対して高品質な報酬を提供する能力も向上することを示す。Llama 2 70Bを我々のアプローチの3回の反復でファインチューニングした結果、AlpacaEval 2.0リーダーボードにおいてClaude 2、Gemini Pro、GPT-4 0613を含む多くの既存システムを上回るモデルが得られた。これは予備的な研究に過ぎないが、この研究は、両軸において継続的に改善可能なモデルの可能性への扉を開くものである。
最近、効率的なハードウェア対応設計を備えた状態空間モデル(SSM)、すなわちMambaが、長いシーケンスのモデリングにおいて大きな可能性を示しています。SSMのみに基づいて効率的で汎用的な視覚バックボーンを構築することは、非常に魅力的な方向性です。しかし、視覚データの位置敏感性と視覚理解のためのグローバルコンテキストの必要性から、視覚データを表現することはSSMにとって課題となっています。本論文では、視覚表現学習が自己注意機構に依存する必要はないことを示し、双方向Mambaブロック(Vim)を用いた新しい汎用視覚バックボーンを提案します。Vimは、画像シーケンスに位置埋め込みを施し、双方向状態空間モデルを用いて視覚表現を圧縮します。ImageNet分類、COCO物体検出、ADE20kセマンティックセグメンテーションのタスクにおいて、VimはDeiTのような確立された視覚トランスフォーマーと比較して高い性能を達成し、さらに計算効率とメモリ効率の大幅な改善を示しています。例えば、解像度1248×1248の画像に対してバッチ推論を行い特徴を抽出する場合、VimはDeiTよりも2.8倍高速で、GPUメモリを86.8%節約します。これらの結果は、Vimが高解像度画像に対するトランスフォーマースタイルの理解を行う際の計算とメモリの制約を克服できることを示しており、次世代の視覚基盤モデルのバックボーンとして大きな可能性を秘めています。コードはhttps://github.com/hustvl/Vimで公開されています。
本研究では、GPT-4レベルの精度を達成する会話型質問応答(QA)モデル群であるChatQAを紹介します。具体的には、大規模言語モデル(LLM)のゼロショット会話型QAの結果を大幅に改善できる2段階の指示チューニング手法を提案します。会話型QAにおける検索処理に対応するため、マルチターンQAデータセットで高密度検索モデルをファインチューニングし、最先端のクエリ書き換えモデルを使用する場合と同等の結果を得ながら、展開コストを大幅に削減しました。特に、OpenAI GPTモデルからの合成データに依存することなく、ChatQA-70Bは10の会話型QAデータセットにおける平均スコア(54.14対53.90)でGPT-4を上回る性能を示しています。
大規模言語モデル(LLM)の推論能力を向上させる一つの方法として、Chain-of-Thought(CoT)アノテーションを用いた教師ありファインチューニング(SFT)が挙げられます。しかし、このアプローチは十分に強力な汎化能力を示しません。なぜなら、トレーニングが与えられたCoTデータのみに依存しているためです。例えば、数学問題解決においては、トレーニングデータ内の各問題に対して通常は1つのアノテーションされた推論パスしか存在しません。直感的には、アルゴリズムが与えられた問題に対して複数のアノテーションされた推論パスから学習することが望ましいと考えられます。この問題に対処するため、本論文では、数学問題解決を例として、LLMの推論学習の汎化能力を向上させるためのシンプルかつ効果的なアプローチであるReinforced Fine-Tuning(ReFT)を提案します。ReFTはまずSFTでモデルをウォームアップし、その後、オンライン強化学習、具体的には本論文ではPPOアルゴリズムを用いて、モデルをさらにファインチューニングします。この際、与えられた問題に対して大量の推論パスが自動的にサンプリングされ、報酬は正解の答えから自然に導出されます。GSM8K、MathQA、SVAMPデータセットでの大規模な実験により、ReFTがSFTを大幅に上回ることが示され、さらに多数決や再ランキングなどの推論時戦略を組み合わせることで性能がさらに向上する可能性があることが確認されました。ReFTは、SFTと同じトレーニング問題から学習することで改善を達成しており、追加または拡張されたトレーニング問題に依存していない点に注意してください。これは、ReFTの優れた汎化能力を示唆しています。
グループ化は、シーンを分解する際の複数の粒度レベルに起因して本質的に曖昧さを伴います。例えば、ショベルカーの車輪は独立したものと見なすべきか、全体の一部と見なすべきでしょうか?本論文では、Group Anything with Radiance Fields (GARField)を提案します。これは、ポーズ付き画像入力から3Dシーンを意味的に意味のあるグループの階層に分解するアプローチです。これを実現するために、物理的なスケールを通じてグループの曖昧さを受け入れます。スケール条件付きの3Dアフィニティ特徴フィールドを最適化することで、世界内の点が異なるサイズの異なるグループに属することが可能になります。このフィールドは、Segment Anything (SAM)によって提供された2Dマスクのセットから、粗から細への階層を尊重する形で最適化され、異なる視点からの矛盾するマスクを一貫して融合するためにスケールが使用されます。このフィールドから、自動ツリー構築またはユーザーインタラクションを通じて可能なグループ化の階層を導出できます。GARFieldをさまざまな実世界のシーンで評価した結果、オブジェクトのクラスター、オブジェクト、およびさまざまなサブパーツなど、多くのレベルで効果的にグループを抽出することがわかりました。GARFieldは、マルチビュー一貫性のあるグループ化を本質的に表現し、入力SAMマスクよりも高忠実度のグループを生成します。GARFieldの階層的グループ化は、3Dアセット抽出や動的シーン理解など、エキサイティングな下流アプリケーションに活用される可能性があります。プロジェクトのウェブサイトはhttps://www.garfield.studio/をご覧ください。
3D視覚言語グラウンディングは、言語を3D物理環境に整合させることに焦点を当てた技術であり、エンボディエージェントの開発における基盤をなすものです。2D領域での最近の進展と比較して、3Dシーンにおける言語のグラウンディングにはいくつかの重要な課題があります:(i) 多様なオブジェクト配置、豊富な属性、複雑な関係性による3Dシーンの本質的な複雑さ、(ii) グラウンディング学習をサポートするためのペア化された3D視覚言語データの不足、(iii) グラウンディングされた3Dデータから知識を抽出するための統一された学習フレームワークの欠如。本研究では、屋内環境における3D視覚言語学習の体系的スケールアップの可能性を検証することで、これら3つの主要な課題に取り組むことを目指します。我々は、約68Kの3D屋内シーンと2.5Mの視覚言語ペアから成る、初の百万規模の3D視覚言語データセット「SceneVerse」を導入しました。このデータセットは、人間によるアノテーションと我々のスケーラブルなシーングラフベースの生成アプローチから得られています。このスケーリングにより、3D視覚言語学習のための統一された事前学習フレームワーク「Grounded Pre-training for Scenes (GPS)」が可能となることを示します。広範な実験を通じて、GPSの有効性を実証し、既存のすべての3D視覚グラウンディングベンチマークで最先端の性能を達成しました。SceneVerseとGPSの膨大な可能性は、挑戦的な3D視覚言語タスクにおけるゼロショット転移実験を通じて明らかにされています。プロジェクトウェブサイト: https://scene-verse.github.io
ワールドモデルは、世界のダイナミクスを理解し予測する上で重要な役割を果たし、ビデオ生成において不可欠な要素です。しかし、既存のワールドモデルはゲームや運転といった特定のシナリオに限定されており、一般的な世界の複雑な動的環境を捉える能力が制限されています。そこで、私たちはWorldDreamerを提案します。これは、一般的な世界の物理と動きを包括的に理解することを促進する先駆的なワールドモデルであり、ビデオ生成の能力を大幅に向上させます。大規模言語モデルの成功に着想を得て、WorldDreamerはワールドモデリングを教師なし視覚シーケンスモデリングの課題として捉えます。これは、視覚入力を離散トークンにマッピングし、マスクされたトークンを予測することで実現されます。このプロセスにおいて、マルチモーダルプロンプトを組み込み、ワールドモデル内での相互作用を促進します。私たちの実験では、WorldDreamerが自然景観や運転環境など、さまざまなシナリオでのビデオ生成において優れた性能を発揮することが示されました。WorldDreamerは、テキストからビデオへの変換、画像からビデオへの合成、ビデオ編集といったタスクを実行する際の汎用性を実証しています。これらの結果は、WorldDreamerが多様な一般的な世界環境における動的要素を捉える上で効果的であることを裏付けています。
拡散モデルに基づく動画生成は、学術界と産業界の両方で広く注目を集め、大きな成功を収めています。しかし、現在の取り組みは主に単一目的または単一タスクの動画生成、例えばテキスト駆動、画像駆動、またはテキストと画像の組み合わせによる生成に集中しています。これは現実世界のアプリケーションシナリオのニーズを完全には満たせません。なぜなら、ユーザーは画像やテキストの条件を個別に、または組み合わせて柔軟に入力する可能性があるからです。この問題に対処するため、我々はテキストと画像のモダリティにまたがる複数の動画生成タスクを処理可能な統一モーダル動画生成システムを提案します。この目的のために、我々は生成の自由度の観点からシステム内の様々な動画生成タスクを再検討し、それらを高自由度と低自由度の動画生成カテゴリに分類します。高自由度の動画生成では、入力画像やテキストの意味に沿った動画を生成するためにマルチ条件クロスアテンションを採用します。低自由度の動画生成では、純粋なランダムガウスノイズの代わりにバイアス付きガウスノイズを導入し、入力条件の内容をより良く保持することを可能にします。我々の手法は、公開されている学術ベンチマークMSR-VTTにおいて最低のフレシェ動画距離(FVD)を達成し、現在のオープンソース手法を人間評価で上回り、クローズドソースの手法Gen2と同等の性能を示しています。より多くのサンプルについては、https://univg-baidu.github.io をご覧ください。
大規模言語モデル(LLM)の展開とスケーリングは、様々なアプリケーションに浸透し、高スループットと低レイテンシを要求するサービスシステムとして重要な課題となっています。既存のフレームワークは、特に長いプロンプトを伴うワークロードにおいて、これらの要件をバランスよく満たすことに苦戦しています。本論文では、DeepSpeed-FastGenを紹介します。このシステムは、新しいプロンプトと生成の構成戦略であるDynamic SplitFuseを採用し、vLLMのような最先端のシステムと比較して、最大2.3倍の有効スループット、平均2倍の低レイテンシ、および最大3.7倍の低い(トークンレベルの)テールレイテンシを実現します。DeepSpeed-MIIとDeepSpeed-Inferenceの相乗効果を活用し、LLM向けの効率的で使いやすいサービスシステムを提供します。DeepSpeed-FastGenの高度な実装は、様々なモデルをサポートし、非永続的および永続的な展開オプションを提供し、インタラクティブセッションから長時間実行されるアプリケーションまで、多様なユーザーシナリオに対応します。詳細なベンチマーク手法を提示し、レイテンシ-スループット曲線を通じて性能を分析し、ロードバランシングによるスケーラビリティを調査します。評価結果は、様々なモデルとハードウェア構成において、スループットとレイテンシの大幅な改善を示しています。今後の拡張に向けたロードマップについても議論し、より広範なモデルサポートや新しいハードウェアバックエンドを含む今後の改善点について述べます。DeepSpeed-FastGenのコードは、コミュニティの参加と貢献のために容易に利用可能です。
テキストからビデオを生成する技術は、与えられたプロンプトに基づいてビデオを生成することを目指しています。最近では、いくつかの商用ビデオモデルが、最小限のノイズ、優れた詳細、高い美的スコアを持つ説得力のあるビデオを生成できるようになりました。しかし、これらのモデルは、コミュニティがアクセスできない大規模でよくフィルタリングされた高品質のビデオに依存しています。低品質のWebVid-10Mデータセットを使用してモデルを訓練する多くの既存の研究は、モデルがWebVid-10Mに適合するように最適化されているため、高品質のビデオを生成するのに苦労しています。本研究では、Stable Diffusionから拡張されたビデオモデルの訓練スキームを探り、低品質のビデオと合成された高品質の画像を活用して高品質のビデオモデルを取得する可能性を調査します。まず、ビデオモデルの空間モジュールと時間モジュールの関係、および低品質ビデオへの分布シフトを分析します。すべてのモジュールを完全に訓練すると、時間モジュールのみを訓練する場合よりも空間モジュールと時間モジュールの結合が強くなることを観察します。このより強い結合に基づいて、高品質の画像で空間モジュールを微調整することで、モーションの劣化なしに分布を高品質にシフトし、汎用的な高品質ビデオモデルを実現します。提案手法の優位性、特に画質、モーション、コンセプト構成において、評価を行います。
我々は、Diffusion Transformers(DiT)を基盤とした生成モデルファミリーであるScalable Interpolant Transformers(SiT)を提案する。標準的な拡散モデルよりも柔軟な方法で2つの分布を接続する補間フレームワークにより、動的輸送に基づく生成モデルに影響を与えるさまざまな設計選択をモジュール的に研究することが可能となる。これには、離散時間学習と連続時間学習の使用、モデルが学習する目的関数の決定、分布を接続する補間関数の選択、そして決定論的または確率的サンプラーの展開が含まれる。上記の要素を慎重に導入することで、SiTは条件付きImageNet 256x256ベンチマークにおいて、同じバックボーン、パラメータ数、GFLOPsを使用しながら、モデルサイズにわたって一貫してDiTを上回る性能を発揮する。学習とは別に調整可能なさまざまな拡散係数を探索することで、SiTはFID-50Kスコア2.06を達成した。
本論文では、TextureDreamerという新しい画像誘導型テクスチャ合成手法を提案します。この手法は、少数の入力画像(3~5枚)から再照明可能なテクスチャを任意のカテゴリのターゲット3D形状に転送します。テクスチャ作成は、ビジョンとグラフィックスにおける重要な課題です。産業界では、経験豊富なアーティストを雇って3Dアセットのテクスチャを手作業で作成しています。従来の手法では、密にサンプリングされたビューと正確に整列したジオメトリが必要であり、学習ベースの手法はデータセット内のカテゴリ固有の形状に限定されていました。これに対し、TextureDreamerは、現実世界の環境から高度に詳細で複雑なテクスチャを、わずか数枚のカジュアルに撮影された画像だけで任意のオブジェクトに転送することができ、テクスチャ作成の大幅な民主化が期待されます。私たちの核となるアイデアであるパーソナライズドジオメトリ認識スコア蒸留(PGSD)は、テクスチャ情報抽出のためのパーソナライズドモデリング、詳細な外観合成のための変分スコア蒸留、ControlNetを用いた明示的なジオメトリガイダンスなど、拡散モデルの最近の進展からインスピレーションを得ています。私たちの統合といくつかの重要な改良により、テクスチャ品質が大幅に向上しました。異なるカテゴリにわたる実画像での実験では、TextureDreamerが高度にリアルで意味的に意味のあるテクスチャを任意のオブジェクトに転送し、従来の最先端技術の視覚品質を凌駕することが示されました。
局所確率的勾配降下法(Local-SGD)、別名フェデレーテッド・アベレージングは、各デバイスが通信ごとに複数のSGD更新を実行する分散最適化のアプローチです。本研究では、言語モデルの訓練における非同期型Local-SGDの実証的研究を提示します。つまり、各ワーカーはSGDステップを完了次第、即座にグローバルパラメータを更新します。ワーカーのハードウェアの異質性、モデルサイズ、ワーカー数、オプティマイザが学習性能に与える影響を包括的に調査しました。素朴な実装では、非同期Local-SGDは同期型と比較して、グローバルモデルパラメータをより頻繁に更新するにもかかわらず、収束までにより多くの反復を要することがわかりました。ワーカーの勾配が古くなった際のグローバルパラメータに対するモーメンタム加速が主要な課題であることを特定しました。我々は、遅延ネステロフ・モーメンタム更新を活用し、ワーカーの計算速度に基づいてローカル訓練ステップを調整する新規手法を提案します。このアプローチは、C4データセット上で最大1億5000万パラメータのモデルを用いて評価され、更新ステップあたりのパープレキシティにおいて同期型Local-SGDと同等の性能を示し、実時間においてはそれを大幅に上回りました。
テキストを正確なレイアウト表現の情報源として用いる際の限界に対処するため、多くの研究では生成画像内の特定の属性を条件付けるために追加の信号を組み込んでいます。これまでの研究は成功を収めているものの、三次元平面に拡張された属性の特定の位置情報を考慮していませんでした。この文脈において、我々は三次元オブジェクト配置の制御と、複数の例示画像からのグローバルなスタイル的意味論の分離表現を統合した条件付き拡散モデルを提案します。具体的には、まず深度分離トレーニングを導入し、オブジェクトの相対深度を推定器として活用することで、合成画像トリプレットを使用して未知のオブジェクトの絶対位置を特定できるようにします。また、追加の位置情報手がかりを使用せずに、ターゲット領域にグローバルな意味論を課す手法であるソフトガイダンスを導入します。我々の統合フレームワークであるCompose and Conquer(CnC)は、これらの技術を統合し、複数の条件を分離された形で位置付けることを可能にします。我々のアプローチが、異なる深度にあるオブジェクトの知覚を可能にし、異なるグローバルな意味論を持つ局所化されたオブジェクトを構成するための汎用的なフレームワークを提供することを実証します。コード: https://github.com/tomtom1103/compose-and-conquer/
ニューラルラジアンスフィールド(NeRF)は、2D画像のセットを与えられた場合の新視点合成(NVS)において顕著な性能を発揮します。しかし、NeRFの学習には、通常Structure-from-Motion(SfM)パイプラインによって取得される各入力ビューの正確なカメラポーズが必要です。最近の研究ではこの制約を緩和しようと試みていますが、それでもしばしば適切な初期ポーズに依存し、それを洗練する必要があります。ここでは、ポーズ初期化の要件を完全に取り除くことを目指します。我々は、2DビデオフレームからNeRFを学習するための最適化手順であるIncremental CONfidence(ICON)を提案します。ICONは、滑らかなカメラ運動を仮定して初期ポーズの推定を行います。さらに、ICONは「信頼度」を導入します。これはモデルの品質を適応的に測定し、動的に勾配を再重み付けするための指標です。ICONは、高信頼度のポーズを利用してNeRFを学習し、高信頼度の3D構造(NeRFによって符号化されたもの)を利用してポーズを学習します。我々は、事前のポーズ初期化なしに、ICONがCO3DとHO3DにおいてSfMポーズを使用する手法よりも優れた性能を達成することを示します。