翻訳付きの日次キュレーションされたAI研究論文
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルを人間の好みに合わせるための重要な手法として台頭し、Proximal Policy Optimization(PPO)、Direct Preference Optimization(DPO)、REINFORCE Leave One-Out(RLOO)、ReMax、Group Relative Policy Optimization(GRPO)などの手法を通じて急速なアルゴリズムの進化を目撃しています。私たちは、古典的なREINFORCEアルゴリズムの強化バリアントであるREINFORCE++を提案します。この手法は、PPOからの主要な最適化技術を取り入れつつ、評価者ネットワークの必要性を排除しています。REINFORCE++は、3つの主要な目標を達成します:(1)単純さ、(2)強化されたトレーニングの安定性、および(3)計算オーバーヘッドの削減。包括的な経験的評価を通じて、REINFORCE++は、GRPOよりも優れた安定性を示し、PPOよりも優れた計算効率を達成しつつ、同等の性能を維持します。実装はhttps://github.com/OpenRLHF/OpenRLHFで入手可能です。
物理AIは最初にデジタルで訓練される必要があります。それ自体のデジタルツイン、ポリシーモデル、および世界のデジタルツイン、世界モデルが必要です。本論文では、開発者が物理AIセットアップ用のカスタマイズされた世界モデルを構築するのを支援するCosmos World Foundation Model Platformを提案します。私たちは世界基盤モデルを、下流アプリケーション向けにカスタマイズされた世界モデルに微調整できる汎用世界モデルと位置付けています。当社のプラットフォームは、ビデオキュレーションパイプライン、事前トレーニング済みの世界基盤モデル、事前トレーニング済みの世界基盤モデルのポストトレーニングの例、およびビデオトークナイザをカバーしています。物理AIビルダーが当社の社会の最も重要な問題を解決するのを支援するために、当社のプラットフォームをオープンソース化し、当社のモデルをオープンウェイトとし、許可されたライセンスを使用してhttps://github.com/NVIDIA/Cosmosから利用できるようにしています。
リアルタイムの大規模多モーダルモデル(LMM)の登場、例えばGPT-4oのようなものが、効率的なLMMに対する大きな関心を引き起こしています。LMMフレームワークは通常、視覚入力をビジョントークン(連続表現)にエンコードし、それらを大規模言語モデル(LLMs)の文脈に統合します。ここで、大規模なパラメータと多数の文脈トークン(主にビジョントークン)が、膨大な計算オーバーヘッドをもたらします。これまでの効率的なLMMに向けられた努力は常に、LLMのバックボーンをより小さなモデルで置き換えることに焦点を当ててきましたが、トークンの量という重要な問題を無視してきました。本論文では、ビジョントークンを最小限に抑えた効率的なLMMであるLLaVA-Miniを紹介します。視覚情報を保持しつつビジョントークンの圧縮率を高くするために、まずLMMがビジョントークンをどのように理解しているかを分析し、ほとんどのビジョントークンがLLMバックボーンの初期層で重要な役割を果たしており、そこで主に視覚情報をテキストトークンに融合していることを見出しました。この発見に基づき、LLaVA-Miniはモダリティ事前融合を導入して、視覚情報を事前にテキストトークンに融合し、それによりLLMバックボーンに供給されるビジョントークンを1つに極限まで圧縮することを可能にします。LLaVA-Miniは、画像、高解像度画像、およびビデオの理解を効率的にサポートできる統合された大規模多モーダルモデルです。11つの画像ベースおよび7つのビデオベースのベンチマークを対象とした実験では、LLaVA-Miniが、576個のビジョントークンではなくわずか1つのビジョントークンでLLaVA-v1.5を上回ることが示されました。効率分析によると、LLaVA-MiniはFLOPを77%削減し、40ミリ秒以内の低遅延応答を提供し、24GBのメモリを搭載したGPUハードウェアで10,000フレーム以上のビデオを処理できます。
この研究では、画像と動画の密なグラウンデッド理解のための初の統合モデルであるSa2VAを提案します。従来の多様なモーダルの大規模言語モデルが特定のモダリティやタスクに限定されるのに対し、Sa2VAは参照セグメンテーションや会話を含む広範囲の画像と動画タスクをサポートし、ワンショットの調整指示を最小限に抑えます。Sa2VAは、基盤となる動画セグメンテーションモデルであるSAM-2と、高度なビジョン言語モデルであるLLaVAを組み合わせ、テキスト、画像、動画を共有のLLMトークン空間に統合します。LLMを使用して、Sa2VAはSAM-2を導き、正確なマスクを生成する指示トークンを生成し、静的および動的な視覚コンテンツのグラウンデッドで多様な理解を実現します。さらに、複雑な動画シーン内の72,000以上のオブジェクト表現を含む自動ラベル付けされたRef-SAVデータセットを導入し、モデルの性能向上を図ります。また、Ref-SAVデータセット内の2,000のビデオオブジェクトを手動で検証し、複雑な環境での参照ビデオオブジェクトセグメンテーションをベンチマークとします。実験結果は、Sa2VAが複数のタスクで最先端の性能を達成し、特に参照ビデオオブジェクトセグメンテーションにおいてその複雑な現実世界への適用可能性を示しています。
近年、ビジョン言語モデル(VLMs)はビデオ理解の分野で大きな進歩を遂げてきました。しかしながら、重要な能力である微細な動きの理解という点において、現在のベンチマークでは未だに探求されていない部分があります。このギャップに対処するために、私たちはMotionBenchを提案します。これは、ビデオ理解モデルの微細な動きの理解能力を評価するために設計された包括的な評価ベンチマークです。MotionBenchは、6つの主要なモーション指向の質問タイプを通じてモデルの動きレベルの認識を評価し、多様なソースから収集されたデータを含むことで、現実世界のビデオコンテンツの幅広い表現を保証します。実験結果によると、既存のVLMsは微細な動きを理解する能力が低いことが示されています。LLMの限られたシーケンス長内で微細な動きを認識するために、ビデオ特徴の圧縮に最適化されたVLMアーキテクチャを検討し、新しい効率的なスルーエンコーダ(TE)フュージョン手法を提案しています。実験では、より高いフレームレートの入力とTEフュージョンが動きの理解を向上させることが示されていますが、まだ大幅な改善の余地があります。私たちのベンチマークは、より能力のあるビデオ理解モデルの開発を指導し、促進することを目的としており、微細な動きの理解の重要性を強調しています。プロジェクトページ:https://motion-bench.github.io
拡散モデルは、テキストプロンプトや画像から高品質なビデオを生成する際に印象的な性能を発揮しています。ただし、カメラ操作やコンテンツ編集など、ビデオ生成プロセスの細かな制御は依然として大きな課題です。制御されたビデオ生成の既存手法は、通常、単一の制御タイプに制限されており、多様な制御要求を処理する柔軟性が欠如しています。本論文では、複数のビデオ制御タスクを統一されたアーキテクチャ内でサポートする革新的なアプローチである「Diffusion as Shader(DaS)」を紹介します。我々の主要な洞察は、多目的なビデオ制御を実現するには、ビデオが基本的に動的な3Dコンテンツの2Dレンダリングであるため、3D制御信号を活用する必要があるということです。従来の2D制御信号に制限された従来の手法とは異なり、DaSは制御入力として3Dトラッキングビデオを活用することで、ビデオ拡散プロセスを本質的に3D認識させます。この革新により、DaSは単に3Dトラッキングビデオを操作することで、幅広いビデオ制御を実現できます。3Dトラッキングビデオを使用するさらなる利点は、フレームを効果的にリンクし、生成されたビデオの時間的一貫性を著しく向上させる能力です。8 H800 GPUで3日間の微調整を行い、10k本未満のビデオを使用して、DaSは、メッシュからビデオ生成、カメラ制御、モーション転送、オブジェクト操作を含むさまざまなタスクにわたる強力な制御能力を示しています。
文書からプレゼンテーションを自動生成することは、コンテンツの質、視覚デザイン、構造の整合性をバランスよく保つことを要求する難しい課題です。既存の手法は主にコンテンツの質を改善し評価することに焦点を当てており、しばしば視覚デザインや構造の整合性を見落としているため、実用性が制限されています。これらの制限に対処するために、私たちは人間のワークフローに着想を得た2段階の編集ベースのアプローチによって、プレゼンテーション生成を包括的に改善するPPTAgentを提案します。PPTAgentはまず、参照プレゼンテーションを分析してその構造パターンとコンテンツスキーマを理解し、次にアウトラインを起草し、コードアクションを介してスライドを生成して整合性と整列を確保します。生成されたプレゼンテーションの品質を包括的に評価するために、Content、Design、Coherenceの3つの次元でプレゼンテーションを評価する評価フレームワークであるPPTEvalをさらに導入します。実験の結果、PPTAgentは全ての次元で従来の自動プレゼンテーション生成手法を大幅に上回ることが示されました。コードとデータはhttps://github.com/icip-cas/PPTAgent で入手可能です。
最近、画像、テキスト、音声の理解と生成において、オムニモーダル学習の最新の進展が、主にプロプライエタリなモデル内で達成されています。しかし、オープンソースの進展が妨げられてきたのは、オムニモーダルデータセットの限られた利用と、リアルタイムの感情音声生成に関連する固有の課題です。これらの問題に対処するために、私たちはオープンオムニという、オムニモーダルのアラインメントと音声生成を組み合わせた2段階トレーニング手法を提案します。アラインメントフェーズでは、事前にトレーニングされた音声モデルをテキスト-画像タスクでさらにトレーニングし、ビジョンから音声への一般化を(ほぼ)ゼロショットで達成し、トライモーダルデータセットでトレーニングされたモデルを凌駕します。音声生成フェーズでは、軽量なデコーダが、音声タスクと好み学習によってリアルタイムの感情音声を容易にし、実現します。実験では、オープンオムニがオムニモーダル、ビジョン-言語、音声-言語の評価において一貫して改善され、自然で感情豊かな対話とリアルタイムの感情音声生成を可能にします。
科学研究のパラダイムは、人工知能(AI)の発展によって根本的な変革を遂げつつあります。最近の研究では、様々なAI支援研究手法がデータ解析の改善、計算の加速、新しいアイデアの創出によって研究効率を大幅に向上させることを示しています。究極の目標である自動科学研究に一歩近づくために、本論文では、人間の科学研究の全プロセスをさらに構築するための最初のクローズドループオープンエンドの自動研究フレームワークであるDolphinを提案します。Dolphinは研究アイデアを生成し、実験を行い、実験結果からフィードバックを受けてより高品質なアイデアを生成します。具体的には、Dolphinは、トピックとタスク属性によってランク付けされた関連論文に基づいて新しいアイデアを生成します。その後、コードは例外トレースバックによってガイドされたローカルコード構造で自動的に生成およびデバッグされます。最後に、Dolphinは各アイデアの結果を自動的に分析し、その結果を次のラウンドのアイデア生成にフィードバックします。さまざまなトピックのベンチマークデータセットで実験を行い、その結果、Dolphinは新しいアイデアを継続的に生成し、ループ内で実験を完了できることが示されました。Dolphinは、2D画像分類や3Dポイント分類などの一部のタスクにおいて、最先端の手法に匹敵する方法を自動的に提案できることを強調します。
私たちは、シネマティックレベルの品質とダイナミックな動きを持つアイデンティティを保持したビデオを生成するためのフレームワークであるMagic Mirrorを提案します。最近のビデオ拡散モデルの進歩により、テキストからビデオへの生成において印象的な能力が示されていますが、自然な動きを生み出しつつ一貫したアイデンティティを維持することは依然として難しい課題です。従来の手法は、個人固有の微調整が必要とされるか、アイデンティティの保存と動きの多様性のバランスを図るのに苦労することがあります。私たちの手法は、Video Diffusion Transformersを基盤として構築されており、3つの主要なコンポーネントを導入しています:(1) アイデンティティと構造的特徴の両方を捉えるデュアルブランチ顔の特徴抽出器、(2) 効率的なアイデンティティ統合のためのConditioned Adaptive Normalizationを備えた軽量なクロスモーダルアダプタ、および(3) 合成アイデンティティペアとビデオデータを組み合わせた2段階のトレーニング戦略。幅広い実験により、Magic Mirrorが効果的にアイデンティティの一貫性と自然な動きをバランスよく保ち、既存の手法を複数のメトリックで上回ることが示されました。コードとモデルは以下のURLから公開されます:https://github.com/dvlab-research/MagicMirror/
3D Gaussian Splatting(3DGS)は、シーン表現とニューラルレンダリングにおいて大きな進展を遂げており、動的なシーンに適応するための強力な取り組みが行われています。既存の手法は、優れたレンダリング品質と速度を提供しているものの、ストレージ要件や複雑な実世界の動きの表現に苦労しています。これらの課題に対処するために、私たちはMoDecGSを提案します。これは、複雑な動きを持つ厳しいシナリオで新しい視点を再構築するために設計されたメモリ効率の良いガウススプラッティングフレームワークです。私たちは、GlobaltoLocal Motion Decomposition(GLMD)を導入して、動的な動きを効果的に粗から細の方法で捉えます。このアプローチは、Global Canonical Scaffolds(Global CS)とLocal Canonical Scaffolds(Local CS)を活用し、静的なScaffold表現を動的なビデオ再構築に拡張します。Global CSについては、グローバルダイナミクスを効率的に表現するために、グローバルアンカーデフォルメーション(GAD)を提案します。これは、アンカー位置、オフセット、およびローカルコンテキスト特徴の暗黙のScaffold属性を直接変形することで、複雑な動きに沿ったグローバルダイナミクスを表現します。次に、Local CSのLocal Gaussian Deformation(LGD)によって、ローカルな動きを細かく調整します。さらに、Temporal Interval Adjustment(TIA)を導入して、トレーニング中に各Local CSの時間的カバレッジを自動的に制御し、指定された時間セグメント数に基づいて最適なインターバル割り当てを見つけることができます。包括的な評価により、MoDecGSは、実世界の動的ビデオからの動的3Dガウス分布に対して、最先端の手法に比べて平均70%のモデルサイズ削減を達成し、レンダリング品質を維持または向上させることが示されました。
人間のフィードバックからの強化学習(RLHF)は、言語モデル(LMs)を人間の好みに合わせるために広く採用されています。従来のRLHFの作業は、一般的にバンディットの定式化を採用しており、直感的ではありますが、LM生成の連続性を無視し、希少な報酬の問題に苦しむ可能性があります。最近の研究では、各トークンを行動として扱う密なトークンレベルのRLHFが提案されていますが、適切な報酬割り当てには微妙すぎるかもしれません。本論文では、短いトークンのシーケンスにわたる意味のあるテキストセグメントに報酬を割り当てるセグメントレベルの報酬モデルをトレーニングおよび利用することで、両者の利点を最大限に活用しようとしています。報酬学習では、動的なテキストセグメンテーションを可能にし、標準のシーケンス選好データセットとの互換性を持たせています。セグメント報酬に対する効果的なRLベースのLMトレーニングのために、古典的なスカラーバンディット報酬正規化を位置認識型正規化関数に一般化し、セグメント報酬をさらに密に補間しています。これらの設計により、当該手法は、LMポリシーに関する3つの人気のあるRLHFベンチマーク(AlpacaEval 2.0、Arena-Hard、MT-Bench)で競争力のあるパフォーマンスを発揮します。アブレーション研究も実施され、当該手法がさらに示されています。
我々は、Transformerアーキテクチャを変更するアプローチを提案し、グラフに関する関係推論を注意機構に統合することで、グラフニューラルネットワークと言語モデリングの概念を融合させました。注意とグラフ理論との固有の関連性に基づき、Transformerの注意機構をグラフ演算として再定式化し、Graph-Aware Isomorphic Attentionを提案します。この手法は、Graph Isomorphism Networks(GIN)やPrincipal Neighborhood Aggregation(PNA)などの高度なグラフモデリング戦略を活用し、関係構造の表現を豊かにします。我々のアプローチは、一貫性のある依存関係を捉え、一般化を促進し、一般化ギャップを縮小し、学習パフォーマンスを向上させることが示されています。さらに、我々はグラフに意識した注意を拡張し、Sparse GIN-Attentionを導入しました。この微調整手法は、疎なGINを使用します。注意行列を疎な隣接グラフとして解釈することで、この手法は、事前学習済みの基盤モデルの適応性を向上させ、計算コストを最小限に抑えつつ、グラフに意識した機能を付与します。Sparse GIN-Attentionの微調整により、低ランク適応(LoRA)などの代替手法と比較して、改善されたトレーニングダイナミクスとより良い一般化が実現されます。我々は、伝統的な注意機構内の潜在的なグラフ構造について議論し、Transformerを関係推論のための階層的GINモデルとして進化させることで、新たな理解の観点を提供します。この視点は、基盤モデルの開発に深い影響を与え、局所的およびグローバルな依存関係の両方に動的に適応するアーキテクチャの設計を可能にします。バイオインフォマティクス、材料科学、言語モデリングなどの分野において、関係と連続データモデリングの統合により、解釈可能で一般化可能なモデリング戦略の舞台が整います。
私たちは、同じ人物の顔の表情単位(AU)の相対的な変動を制御することで、顔の表情編集の問題に取り組んでいます。これにより、その特定の人物の表情を細かく、連続的かつ解釈可能な方法で編集することが可能となり、その人物のアイデンティティ、ポーズ、背景、詳細な顔の属性を保持しながら行います。私たちがMagicFaceと名付けたモデルの鍵は、AUの変動に依存する拡散モデルと、顔の詳細を高い一貫性で保持するIDエンコーダです。具体的には、入力アイデンティティとともに顔の詳細を保持するために、事前学習されたStable-Diffusionモデルの力を活用し、外観特徴を自己注意を介して統合するIDエンコーダを設計しています。背景とポーズの一貫性を保つために、対象の現在の背景とポーズをモデルに明示的に通知する効率的な属性コントローラを導入しています。AUの変動をノイズ除去UNetに注入することで、我々のモデルはさまざまなAUの組み合わせを持つ任意のアイデンティティをアニメーション化し、他の顔の表情編集作業と比較して高品質な表情編集の優れた結果を生み出します。コードはhttps://github.com/weimengting/MagicFace で公開されています。
テキストによる画像間拡散モデルは、テキストのプロンプトに基づいて画像を翻訳する際に優れた性能を発揮し、正確かつ創造的な視覚的修正を可能にします。ただし、このような強力な技術は、誤情報の拡散、著作権侵害、コンテンツの追跡回避などに悪用される可能性があります。これにより、私たちは、テキストによる画像間拡散モデル(ID^2)の起源識別タスクを導入する動機付けをします。このタスクの目的は、与えられた翻訳クエリの元の画像を取得することです。ID^2への直接的な解決策は、専用の深層埋め込みモデルを訓練して、クエリと参照画像から特徴を抽出して比較することです。しかし、異なる拡散モデルによって生成された世代間の視覚的な不一致のため、この類似性ベースのアプローチは、あるモデルの画像で訓練し、別のモデルの画像でテストする際に失敗し、現実世界の応用において効果が制限されます。提案されたID^2タスクのこの課題を解決するために、一般性を重視した初のデータセットと理論的に保証された手法を提供します。精選されたデータセットであるOriPIDには、豊富な起源とガイド付きプロンプトが含まれており、さまざまな拡散モデルを横断して潜在的な識別モデルの訓練とテストに使用できます。手法のセクションでは、生成されたサンプルの事前訓練済み変分オートエンコーダー(VAE)埋め込み間の距離を最小化する線形変換の存在を証明します。その後、このような単純な線形変換が異なる拡散モデル間で一般化できることが示されます。実験結果は、提案された手法が類似性ベースの手法よりも満足のいく一般化性能を達成し、一般化設計を持つ手法でも大幅に上回ることを示しています(mAPで+31.6%)。