翻訳付きの日次キュレーションされたAI研究論文
ビジョン言語モデル(VLM)の急速な進歩は、視覚的文脈を含む数学的推論タスクに取り組む上で大きな潜在能力を示しています。似た問題に対して解決手順を信頼性高く適用できる人間とは異なり、GPT-4oなどのSOTA VLMは、これらのシナリオで一貫して失敗することがあることがわかりました。これにより、彼らの数学的推論能力には限界があることが明らかになりました。本論文では、VLMの数学的推論の堅牢性を調査し、同じ質問の異なるバリエーション(視覚的数値の変更や関数グラフの変更など)においてこれらのモデルがどのように適切に機能するかを評価します。いくつかのビジョンベースの数学ベンチマークが開発されていますが、これらのベンチマークは問題解決能力を評価するための静的な問題セットしか含んでおらず、数学的推論の堅牢性を簡単に評価することはできません。このギャップを埋めるために、VLMの詳細な評価を目的とした動的ビジュアル数学ベンチマークであるDynaMathを紹介します。DynaMathには、Pythonプログラムとして表現された501個の高品質な複数トピックのシード質問が含まれています。これらのプログラムは、異なる種類の視覚的およびテキストの変化を含む多くの具体的な質問の自動生成を可能にするように注意深く設計および注釈付けされています。DynaMathは、シード質問の入力条件が変化する状況下でVLMの汎化能力を評価することによって、モデルの性能を評価することを可能にします。私たちは、5,010の生成された具体的な質問を用いて14のSOTA VLMを評価しました。結果は、最悪のケースモデルの精度(すべての10のバリエーションで正しく回答されたシード質問の割合)が平均ケースの精度よりも著しく低いことを示しています。私たちの分析は、VLMの推論能力の堅牢性を研究する必要性を強調し、DynaMathは数学的推論のためのより信頼性の高いモデルの開発を指針とするための貴重な示唆を提供します。
エキスパートの混合(MoEs)は、より効率的かつ効果的な大規模言語モデル(LLMs)の開発に重要な役割を果たしています。膨大なリソース要件のため、大規模MoEアルゴリズムの研究は多くの研究者にはアクセスしづらい状況です。本研究では、MoEアルゴリズムの研究、トレーニング、評価を効率化する包括的かつモジュラーなフレームワークであるLibMoEを開発しました。モジュラー設計、効率的なトレーニング、包括的な評価という3つの基本原則に基づいて構築されたLibMoEは、トレーニングと評価のパイプラインを標準化することで、幅広い研究者にMoEをLLMsによりアクセスしやすくしています。LibMoEを使用して、我々は5つの最先端MoEアルゴリズムを3つの異なるLLMsと11のデータセットでゼロショット設定下で徹底的にベンチマークしました。結果は、独自の特性にもかかわらず、すべてのMoEアルゴリズムが幅広いタスクにわたって平均化された際にほぼ同様のパフォーマンスを発揮することを示しています。モジュラー設計と包括的な評価により、LibMoEは次世代のMoEとLLMsに向けて意義ある進展を遂げるために研究者にとって貴重な存在となると考えています。プロジェクトページ:https://fsoft-aic.github.io/fsoft-LibMoE.github.io.
大規模言語モデル(LLM)の量子化は推論の高速化において人気がありますが、さまざまな量子化フォーマットに関連する精度と性能のトレードオフについては依然として重要な不確実性が残っています。本研究では、一連の学術ベンチマークと実世界のタスクで人気のある量子化フォーマット(FP8、INT8、INT4)を評価し、Llama-3.1モデルファミリー全体で量子化された精度について包括的な実証的研究を行います。さらに、本研究では、量子化モデルによって生成されたテキストと非圧縮の対応物との違いも検討します。ベンチマークに加えて、最先端の精度回復結果を得るために行ったいくつかの量子化改善策も紹介します。50万以上の個別評価を含む当該調査により、以下のいくつかの重要な結果が得られました:(1)FP8の重みと活性化量子化(W8A8-FP)はすべてのモデルスケールで損失がないこと、(2)INT8の重みと活性化量子化(W8A8-INT)は適切に調整された場合、驚くほど1-3%の精度低下しか発生せず、(3)INT4の重みのみの量子化(W4A16-INT)は8ビット整数の重みと活性化量子化と競合しています。特定の展開環境に最適なフォーマットに関する問題に対処するため、一般的なオープンソースのvLLMフレームワークを使用してさまざまなGPUアーキテクチャで推論性能を分析します。その結果、W4A16が同期展開において最もコスト効率が良く、中堅GPUでの非同期展開に最適であることがわかりました。同時に、W8A8フォーマットは高性能GPUでの中規模および大規模モデルの非同期「連続バッチング」展開に優れています。我々の結果は、さまざまなスケールと性能要件にわたる量子化されたLLMの展開に関する実用的なガイドラインを提供しています。
自律エージェントは、現実世界とのやり取りにおいてますます重要になっています。特に、Android エージェントは最近、頻繁に言及されるやり取り方法となっています。ただし、既存の Android エージェントのトレーニングと評価に関する研究は、オープンソースおよびクローズドソースのモデルの両方について系統的な研究が不足しています。本研究では、Android エージェントのシステム的なフレームワークとして AndroidLab を提案します。これには、異なるモダリティ、アクションスペース、再現可能なベンチマークを備えた操作環境が含まれています。また、同じアクションスペースで大規模言語モデル(LLMs)とマルチモーダルモデル(LMMs)の両方をサポートしています。AndroidLab ベンチマークには、事前定義された Android 仮想デバイスとこれらのデバイス上に構築された 9 つのアプリにまたがる 138 のタスクが含まれています。AndroidLab 環境を使用して、Android Instruction データセットを開発し、6 つのオープンソースの LLMs および LMMs をトレーニングしました。これにより、LLMs の平均成功率が 4.59% から 21.50%、LMMs の平均成功率が 1.93% から 13.28% に向上しました。AndroidLab はオープンソースであり、https://github.com/THUDM/Android-Lab で公開されています。
大規模言語モデル(LLM)は、特にウェブベースのタスクにおいて自律エージェントとして顕著な潜在能力を示しています。しかし、既存のLLMウェブエージェントは、高価なプロプライエタリLLM APIに大きく依存しており、一方でオープンなLLMには必要な意思決定能力が欠如しています。本論文では、オープンなLLMを用いて高性能なウェブエージェントを訓練するために設計された、自己進化オンラインカリキュラム強化学習フレームワークであるWebRLを紹介します。WebRLは、LLMウェブエージェントの構築における3つの主要な課題、つまりトレーニングタスクの不足、希薄なフィードバック信号、オンライン学習におけるポリシー分布のドリフトという課題に取り組んでいます。具体的には、WebRLは、1) 成功しなかった試行から新しいタスクを生成する自己進化カリキュラム、2) 頑健なアウトカム監督報酬モデル(ORM)、および3) 一貫した改善を確実にする適応型強化学習戦略を組み込んでいます。我々は、WebRLを用いてオープンなLlama-3.1およびGLM-4モデルを熟練したウェブエージェントに変換しました。WebArena-Lite上で、WebRLはLlama-3.1-8Bの成功率を4.8%から42.4%に、GLM-4-9Bの成功率を6.1%から43%に向上させました。これらのオープンモデルは、GPT-4-Turbo(17.6%)およびGPT-4o(13.9%)を大きく上回り、オープンなLLMで訓練された以前の最先端ウェブエージェント(AutoWebGLM、18.2%)を凌駕しています。我々の調査結果は、WebRLがオープンとプロプライエタリなLLMベースのウェブエージェントとのギャップを埋める効果的な手段であり、よりアクセス可能で強力な自律ウェブインタラクションシステムへの道を開いていることを示しています。
OpenAIのSoraは、ビデオ生成の可能性を強調し、基本的な物理法則に従うワールドモデルの開発に貢献しています。しかし、ビデオ生成モデルが視覚データだけから人間の先入観なしでこれらの法則を発見する能力は疑問視され得ます。真の法則を学習するワールドモデルは、微妙な点に強い予測を提供し、見慣れないシナリオに正しく外挿するはずです。本研究では、三つの主要シナリオを横断的に評価します:分布内、分布外、および組み合わせ一般化。物体の移動と衝突のための2Dシミュレーションテストベッドを開発し、古典力学の一つ以上の法則によって決定論的に制御されたビデオを生成しました。これにより、大規模な実験のための無制限のデータ供給が可能となり、生成されたビデオが物理法則に従っているかどうかを定量評価することができます。初期フレームに基づいて物体の移動を予測するために拡散ベースのビデオ生成モデルを訓練しました。スケーリング実験では、分布内での完全な一般化、組み合わせ一般化における計測可能なスケーリング動作、しかし分布外シナリオでの失敗が示されました。さらなる実験から、これらのモデルの一般化メカニズムについて二つの重要な洞察が明らかになりました:(1) モデルは一般的な物理法則を抽象化することに失敗し、代わりに「ケースベース」の一般化行動、つまり、最も近い訓練例を模倣することが観察されました;(2) 新しいケースに一般化する際、モデルは訓練データを参照する際に異なる要因を優先することが観察されました:色 > サイズ > 速度 > 形状。私たちの研究は、単独のスケーリングだけでは、ビデオ生成モデルが基本的な物理法則を発見するのに十分ではないことを示唆していますが、これはSoraの広範な成功において果たす役割にもかかわらずです。プロジェクトページはこちらhttps://phyworld.github.io をご覧ください。
既存のLLMエージェントシステムは通常、各ステップで固定および事前定義されたセットからアクションを選択します。このアプローチは閉じられた、狭い範囲の環境では効果的ですが、LLMエージェントを実世界のシナリオに展開する際には、2つの主要な課題が生じると主張します。第1に、固定されたアクションセットから選択することは、LLMエージェントの計画および行動能力を著しく制限する。第2に、このアプローチは、潜在的なアクションの数が膨大な複雑な環境において、すべての可能なアクションを列挙して実装するために膨大な人間の労力を必要とするため、実用的ではありません。本研究では、オンラインでアクションの動的作成および組み合わせを可能にするLLMエージェントフレームワークを提案します。このフレームワークでは、エージェントは各ステップで一般的なプログラミング言語で書かれたプログラムを生成および実行することで環境と対話します。さらに、生成されたアクションは将来の再利用のために時間とともに蓄積されます。GAIAベンチマークでの幅広い実験により、このフレームワークが大幅な柔軟性を提供し、以前の手法を凌駕することが示されました。特筆すべきは、LLMエージェントが事前定義されたセットに関連するアクションが存在しない場合や既存のアクションが予期せぬエッジケースによって失敗した場合に、シナリオで回復できることです。執筆時点では、GAIAのパブリックリーダーボードでトップの位置を維持しています。当該コードは以下で入手可能です:https://github.com/adobe-research/dynasaur{https://github.com/adobe-research/dynasaur}。
拡散モデルは、テキストから画像を生成する際に優れた能力を示しています。彼らの意味理解(つまり、プロンプトに従う)能力も、大規模言語モデル(例:T5、Llama)によって大幅に向上しています。ただし、既存のモデルは、特にテキストプロンプトがさまざまなオブジェクトを多数含み、相互に関連する空間関係を持つ場合など、長く複雑なテキストプロンプトを完璧に処理することができません。UNetベースのモデル(SD1.5、SDXLなど)には多くの地域プロンプティング手法が提案されていますが、最近のDiffusion Transformer(DiT)アーキテクチャに基づいた実装はまだありません。例えば、SD3やFLUX.1などです。このレポートでは、我々はFLUX.1向けの地域プロンプティングを提案し、実装しています。これは、アテンション操作に基づくもので、トレーニング不要でDiTに微細な構成テキストから画像を生成する能力を提供します。コードは以下で入手可能です:https://github.com/antonioo-c/Regional-Prompting-FLUX。
テクスチャリングは、3Dアセットの制作ワークフローにおける重要な段階であり、3Dアセットの視覚的魅力と多様性を向上させます。最近のText-to-Texture(T2T)生成の進歩にもかかわらず、既存の方法はしばしば劣る結果をもたらします。これは主に局所的な不連続性、複数のビュー間の不一致、およびUV展開の結果に大きく依存しているためです。これらの課題に対処するために、私たちはMVPaintと呼ばれる新しい生成-洗練3Dテクスチャリングフレームワークを提案します。これは、高解像度でシームレスなテクスチャを生成し、マルチビューの一貫性を重視しています。MVPaintは主に3つの主要モジュールで構成されています。1)同期マルチビュー生成(SMG)。3Dメッシュモデルが与えられると、MVPaintはまずSMGモデルを用いてマルチビュー画像を同時に生成し、観測の欠落により塗られていない部分を含む粗いテクスチャリング結果を導きます。2)空間認識3D補完(S3I)。完全な3Dテクスチャリングを確保するために、未観測の領域に効果的にテクスチャを施すために、S3I手法を導入しています。3)UVリファインメント(UVR)。さらに、MVPaintは、UV空間でのテクスチャ品質を向上させるためにUVRモジュールを使用しています。これは、まずUV空間の超解像度を実行し、次にUV展開によって引き起こされる空間テクスチャリングの不連続性を修正するために空間認識シームスムージングアルゴリズムを実行します。さらに、Objaverseデータセットから選択された高品質の3Dメッシュに基づくObjaverse T2Tベンチマークと、GSOデータセット全体に基づくGSO T2Tベンチマークの2つのT2T評価ベンチマークを確立しています。幅広い実験結果は、MVPaintが既存の最先端の方法を凌駕していることを示しています。特に、MVPaintは、最小限のジャヌス問題と高度に向上したクロスビューの一貫性を持つ高忠実度のテクスチャを生成できることがわかりました。
本論文では、現在最大のオープンソースTransformerベースの専門家モデルであるHunyuan-Largeを紹介します。総パラメータ数は3890億、活性化パラメータ数は520億で、最大256Kトークンを処理できます。Hunyuan-Largeの優れた性能を言語理解と生成、論理推論、数学的問題解決、コーディング、長文脈、および集約タスクを含むさまざまなベンチマークで徹底的に評価し、LLama3.1-70Bを上回り、はるかに大きなLLama3.1-405Bモデルと比較して同等の性能を発揮します。Hunyuan-Largeの主な実践には、従来の文献よりもはるかに大きい大規模な合成データ、混合専門家ルーティング戦略、キー値キャッシュ圧縮技術、および専門家固有の学習率戦略が含まれます。さらに、専門家モデルのスケーリング則と学習率スケジュールについても調査し、将来のモデル開発と最適化に貴重な知見と指針を提供します。Hunyuan-Largeのコードとチェックポイントは、将来のイノベーションと応用を促進するために公開されています。 コード: https://github.com/Tencent/Hunyuan-Large モデル: https://huggingface.co/tencent/Tencent-Hunyuan-Large
さまざまなアプリケーションでの大規模な大規模言語モデル(LLM)の展開は、チャットボットやバーチャルアシスタントなど、ユーザーに対して文化的に敏感で包括的であることを要求します。文化は心理学や人類学で広く研究されており、最近では、多言語性を超えて心理学や人類学の知見に基づいたLLMの文化的包括性を高める研究が急増しています。本論文では、テキストベースおよびマルチモーダルなLLMに文化的意識を組み込む取り組みについて調査します。まず、人類学と心理学から文化の定義を出発点として文化的意識をLLMで定義し、横断的なデータセットの作成に採用された方法、下流タスクでの文化的包括性の戦略、そしてLLMにおける文化的意識のベンチマーク化に使用された方法論を検討します。さらに、文化的整合性の倫理的側面、ヒューマンコンピュータインタラクションの役割、LLMにおける文化的包括性を促進する役割、文化的整合性が社会科学研究を促進する役割について議論します。最後に、文献の空白に関する私たちの調査結果に基づいて将来の研究への示唆を提供します。
高品質な動画を時間的に一貫性のあるものに生成することは、特に長い時間スパンにわたっては計算コストが高くなる可能性があります。より最近の拡散トランスフォーマー(DiTs)は、この文脈において重要な進展を遂げてきましたが、より大きなモデルや重い注意機構に依存するため、推論速度が遅くなるという課題をさらに増幅させています。本論文では、ビデオDiTsを加速するためのトレーニングフリーな手法であるAdaptive Caching(AdaCache)を紹介します。この手法は、「すべての動画が同じように生成されるわけではない」という事実に基づいており、つまり、一部の動画は他の動画よりも適切な品質を達成するためにノイズ除去ステップが少なくて済むということを意味しています。これに基づいて、拡散プロセスを介して計算をキャッシュするだけでなく、各ビデオ生成に合わせたキャッシュスケジュールを考案し、品質とレイテンシのトレードオフを最大化します。さらに、Motion Regularization(MoReg)スキームを導入して、AdaCache内でビデオ情報を活用し、基本的に動きの内容に基づいて計算割り当てを制御します。これらのプラグアンドプレイの貢献により、複数のビデオDiTベースラインにわたって、推論速度を著しく向上させることが可能となります(例:Open-Sora 720p - 2sビデオ生成において最大4.7倍)。
2Dビジュアル生成の最近の進展は非常に成功しています。しかし、3Dおよび4D生成は、大規模な4Dデータと効果的なモデル設計の不足により、実世界のアプリケーションで依然として課題が残っています。本論文では、日常生活でよく見られるカメラと物体の動きを活用して、一般的な3Dおよび4D生成を共同で調査することを提案します。コミュニティ内での実世界の4Dデータの不足により、まずビデオからカメラの位置姿勢と物体の動きの強度を取得するデータキュレーションパイプラインを提案します。このパイプラインに基づいて、大規模な実世界の4DシーンデータセットであるCamVid-30Kを導入します。3Dおよび4Dデータを活用して、どんな3Dまたは4Dシーンでも生成できるようにするために、GenXDというフレームワークを開発します。我々は、カメラと物体の動きを分離し、3Dおよび4Dデータの両方からシームレスに学習するためのマルチビュー・テンポラルモジュールを提案します。さらに、GenXDは、様々な条件付きビューをサポートするためにマスクされた潜在条件を使用します。GenXDは、カメラの軌跡に従うビデオや、3D表現に昇華できる一貫した3Dビューを生成することができます。我々は、さまざまな実世界および合成データセットで包括的な評価を行い、3Dおよび4D生成において従来の手法と比較してGenXDの効果と汎用性を示しました。
現代のビジュアルエフェクト(VFX)ソフトウェアは、熟練したアーティストがほぼ何でものイメージを作成できるようにしました。ただし、作成プロセスは引き続き労力を要し、複雑であり、一般ユーザーにはほとんどアクセスできません。本研究では、単一のビデオと自然言語の指示からリアルなダイナミックVFXビデオを自動的に作成するAutoVFXフレームワークを提案します。ニューラルシーンモデリング、LLMベースのコード生成、物理シミュレーションを注意深く統合することで、AutoVFXは物理的に基礎付けられた、写実的な編集効果を提供し、自然言語の指示を直接制御できます。様々なビデオと指示にわたるAutoVFXの有効性を検証するために包括的な実験を実施します。定量的および定性的な結果は、AutoVFXが生成品質、指示の整合性、編集の柔軟性、物理的な妥当性において、他のすべての競合手法を大きく上回ることを示唆しています。
活性化スパース性は、活性化出力内に存在する重要でない要素を排除することで多くの重要な応用に利益をもたらすことを示しています。大規模言語モデル(LLM)に関連する多くの重要なアプリケーションがその対象です。LLM内の活性化スパース性を促進することは深い研究が必要ですが、既存の研究は活性化スパース性と潜在的に影響を与える要因との相関に関する包括的で定量的な研究が不足しています。本論文では、デコーダーのみを持つTransformerベースのLLM内の活性化スパース性の定量的スケーリング特性と影響要因に関する包括的な研究を提案します。具体的には、任意の活性化関数に適用可能な正確でパフォーマンスを考慮した活性化スパース性メトリクスであるPPL-p%スパース性を提案します。広範な実験を通じて、いくつかの重要な現象を発見しました。まず、異なる活性化関数は類似のパフォーマンスを示しますが、トレーニング時のスパース性の傾向は対照的です。活性化比率(すなわち、1-スパース比率)は、SiLU活性化およびReLU活性化されたLLMに対して、トレーニングデータの量に応じて収束する増加べき乗則と減少する対数空間べき乗則として進化します。これらは、ReLUがSiLUよりも活性化関数として効率的であり、より多くのトレーニングデータを活用して活性化スパース性を向上させることができることを示しています。第二に、特定のボトルネックポイント以下では、幅-深さ比率と活性化比率が線形に増加し、固定されたパラメータスケールでより深いアーキテクチャの潜在的な利点を示しています。最後に、類似の幅-深さ比率で、活性化スパース性の限界値がパラメータスケールに弱く変化することを驚くべきことに発見しました。つまり、LLM内の活性化パターンはパラメータスケールに対して鈍感です。これらのLLMにおける活性化スパース性に関する経験則は、LLMをより効率的かつ解釈可能にするための重要な示唆を提供しています。
過去1年間、ビデオベースの大規模言語モデルの重要な進展が見られました。しかし、短いビデオと長いビデオの両方に対応する統一されたモデルを開発するという課題は未解決のままです。既存のビデオLLMのほとんどは1時間のビデオを処理できず、長いビデオ向けのカスタムメソッドは短いビデオや画像には効果がありません。本論文では、ビデオ内の冗長なコンテンツを問題の中心と位置付けます。この問題に対処するため、トークンの圧縮と指示に注意した視覚特徴の集約を同時に実現する新しいプーリング戦略を提案します。当該モデルはPrompt-guided Pooling LLaVA(略してPPLLaVA)と呼ばれます。具体的には、PPLLaVAには3つの中核コンポーネントが含まれています。ユーザーの指示に関連する視覚情報を抽出するCLIPベースの視覚プロンプトアラインメント、畳み込みスタイルのプーリングを使用して視覚シーケンスを任意のスケールに圧縮するプロンプトガイド付きプーリング、およびビジュアルダイアログで一般的な長いプロンプト向けに設計されたクリップコンテキスト拡張が含まれます。さらに、当該コードベースには、最先端のビデオDirect Preference Optimization(DPO)およびビジュアルインターリーブトレーニングも統合されています。幅広い実験により、当該モデルの性能が検証されました。PPLLaVAは、1024の視覚コンテキストのみで優れたスループットを実現し、ビデオLLMとして画像ベンチマークでより良い結果を達成すると同時に、キャプション生成から多肢選択問題までの様々なビデオベンチマークで最先端の性能を発揮し、秒から時間までのビデオ長に対応しています。コードは以下で入手可能です:https://github.com/farewellthree/PPLLaVA.
大規模言語モデル(LLM)の開発において、人間のフィードバックからの強化学習(RLHF)は、モデルを人間の価値観や選好に合わせるために重要です。RLHFは、通常、現在のポリシーと凍結された初期ポリシーとの間のKullback-Leibler(KL)ダイバージェンスを参照として使用し、これはProximal Policy Optimization(PPO)などのポリシー最適化アルゴリズムにペナルティとして追加されます。この制約により、モデルが初期チェックポイントから大きく逸脱することを防ぎますが、報酬の領域の探索を制限し、モデルがより高品質な解を発見する能力を低下させます。その結果、ポリシー最適化は、パラメータ空間の狭い領域に閉じ込められ、最適でないアライメントとパフォーマンスをもたらします。本論文では、SALSA(Soup-based Alignment Learning for Stronger Adaptation)という新しいアプローチを提案し、これらの制約を克服するために、2つの独立した教師ありファインチューニング(SFT)モデルの重み空間の平均化によって、より柔軟で適切な参照モデルを作成します。このモデルスープにより、KLダイバージェンスでの大きな逸脱と、安定性を犠牲にすることなく解の空間の有望な領域の探索が可能となります。このより堅牢な参照モデルを活用することで、SALSAはより良い探索を促進し、より高い報酬を達成し、モデルの堅牢性、分布外汎化、およびパフォーマンスを向上させます。我々は、人気のあるオープンモデル(Llama2-7B、Mistral-7B、Gemma-2B)に対する幅広いベンチマーク(MT-Bench、Arena-Hard、UltraFeedback)での詳細な実験を通じて、SALSAの効果を検証し、LLMにおいてPPOを常に上回る深い探索を促進し、優れたアライメントを達成します。
私たちは、Image-GOal Representations(IGOR)を導入し、人間とさまざまなロボット間で統一された意味論的に整合したアクション空間を学習することを目指しています。この統一された潜在的なアクション空間を通じて、IGORは大規模なロボットおよび人間の活動データ間での知識転送を可能にします。初期画像と目標状態との視覚的な変化を潜在的なアクションに圧縮することで、IGORはインターネット規模のビデオデータに対する潜在的なアクションラベルの生成を可能にします。この統一された潜在的なアクション空間により、ロボットと人間の両方によって実行されるさまざまなタスクにわたる基礎ポリシーとワールドモデルのトレーニングが可能となります。私たちは次のことを実証しています:(1)IGORは、人間とロボットの両方に対して意味論的に整合したアクション空間を学習し、物理的相互作用知識を表現するオブジェクトのさまざまな可能な動きを特徴付けます;(2)IGORは、潜在的なアクションモデルとワールドモデルを共同して使用することで、1つのビデオ内のオブジェクトの動きを他のビデオに「移行」させることができ、人間とロボットを越えて移動させることができます;(3)IGORは、基礎ポリシーモデルを介して潜在的なアクションを自然言語と整合させることを学習し、低レベルのポリシーモデルと統合して効果的なロボット制御を実現します。私たちは、IGORが人間からロボットへの知識転送と制御の新たな可能性を開くと信じています。
基盤モデル(FMs)に関連する潜在的なリスクを理解し軽減するためには、効果的な解釈手法の開発が重要です。Sparse Autoencoders(SAEs)は、FMの表現を分解するための有望なツールとして登場していますが、データ内の希少でありながら重要な概念を捉えるのに苦労しています。私たちは、特化型Sparse Autoencoders(SSAEs)を紹介しました。これは、特定のサブドメインに焦点を当てることで、これらの難解なダークマター的特徴を明らかにすることを目的としています。SSAEsのトレーニングのための実用的な手順を提示し、データ選択のための密な検索と概念のリコールを改善するための傾斜付き経験リスク最小化の利点を示しています。我々のSSAEsの標準的なメトリクス(下流のPerplexityやL_0スパース性など)での評価によると、これらはサブドメインのテール概念を効果的に捉え、汎用SAEsの能力を上回っています。Bias in Biosデータセットのケーススタディでの実用的な有用性を紹介し、SSAEsが誤った性別情報を除去する際に最悪グループの分類精度を12.5%向上させることを示しています。SSAEsは、サブドメインにおけるFMsの内部機能をのぞくための強力な新しいレンズを提供します。
私たちは、大規模言語モデル(LLM)の生成を改善するために設計されたExpertPromptingの新しい拡張であるMulti-expert Promptingを提案します(Xuら、2023)。具体的には、複数の専門家をシミュレートし、その回答を集約し、個々の回答および集約された回答の中から最良のものを選択することで、LLMに入力指示を達成させるように誘導します。このプロセスは、Nominal Group Technique(Ven and Delbecq、1974)から派生した7つの慎重に設計されたサブタスクを通じて、一連の思考の中で実行されます。これは、確立された意思決定フレームワークであるNominal Group Technique(Ven and Delbecq、1974)から派生した7つの慎重に設計されたサブタスクを通じて行われます。私たちの評価は、Multi-expert Promptingが、回答の真実性、事実性、情報量、有用性を向上させると同時に、有害性と攻撃性を減少させる点で、ExpertPromptingおよび比較対象のベースラインを大幅に上回ることを示しています。さらに、ChatGPTを使用して、最高のベースラインを8.69%上回ることで、最先端の真実性を達成しています。Multi-expert Promptingは効率的で説明可能であり、多様なシナリオに高度に適応可能であり、手動のプロンプト構築の必要性を排除します。
この論文では、事前学習された拡散モデルを用いてノイズのある線形逆問題を解く効率的なアルゴリズムについて説明します。Denoising diffusion implicit models (DDIM) のパラダイムを拡張し、最終出力に制約を課すために拡散更新を修正したConstrained Diffusion Implicit Models (CDIM) を提案します。ノイズのない逆問題では、CDIM は制約を完全に満たします。ノイジーな場合、CDIM を一般化してノイズの残差分布に対する厳密な制約を満たすようにします。様々なタスクとメトリクスでの実験結果は、CDIM の強力な性能を示し、無制約のDDIM と同様の推論加速度を持ちます。先行する条件付き拡散法よりも10〜50倍高速です。超解像、ノイズ除去、インペインティング、ぼかし除去、3D ポイントクラウド再構築を含む多くの問題に対するアプローチの汎用性を示します。
大規模多モーダルモデル(LMMs)は、最近、テキスト豊かな画像理解において大きな進歩を遂げていますが、複雑で複数ページ、視覚的に豊かな文書にはまだ苦労しています。文書パーサーを使用した従来の方法は、検索増強生成においてパフォーマンスと効率の制限に苦しんでいますが、すべてのページを直接LMMsに提示すると、特に長文書では効率が損なわれます。本研究では、大規模多モーダルモデル(LMM)をサポートするための新しいフレームワークであるLoRA-Contextualizing Adaptation of Large multimodal models(LoCAL)を提案します。我々は、LMMsが効果的に多モーダルリトリーバーとして機能し、ユーザーの質問に回答するために関連ページを取得することができることを実証します。LoCALは、2つの特定のLMMアダプターで実装されています:証拠ページの検索用と質問回答用のものです。実証結果は、公開ベンチマークで最先端のパフォーマンスを示し、LoCALの効果を実証しています。
Swanは、アラビア語を中心とした埋め込みモデルファミリーであり、小規模および大規模なユースケースの両方に対応しています。Swanには、ARBERTv2に基づくSwan-Smallと、事前学習されたアラビア語大規模言語モデルであるArMistralに基づくSwan-Largeの2つのバリアントが含まれています。これらのモデルを評価するために、アラビア語MTEBを提案しています。これは、クロスリンガル、マルチダイアレクト、マルチドメイン、マルチカルチャーのアラビア語テキスト埋め込みのパフォーマンスを評価する包括的なベンチマークスイートであり、8つの多様なタスクをカバーし、94のデータセットにわたります。Swan-Largeは最先端の結果を達成し、ほとんどのアラビア語タスクでMultilingual-E5-largeを上回ります。一方、Swan-Smallは一貫してMultilingual-E5 baseを凌駕しています。私たちの包括的な評価は、Swanモデルが方言的にも文化的にも意識しており、さまざまなアラビア領域で優れた性能を発揮し、著しい貨幣的効率を提供していることを示しています。この研究はアラビア語言語モデリングの分野を大きく前進させ、アラビア語自然言語処理の将来の研究や応用に貴重なリソースを提供しています。私たちのモデルとベンチマークは、研究用に公開されます。