翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は、通常、膨大なパラメータ数によって特徴付けられ、それにより重要な冗長性が生じます。本研究では、推論時の計算オーバーヘッドを削減することを目的とした、LLMに半構造化(または「N:M」)スパースネスを確立する学習可能なプルーニング手法であるMaskLLMを紹介します。新しい重要性基準を開発する代わりに、MaskLLMはN:MパターンをGumbel Softmaxサンプリングを通じて学習可能な分布として明示的にモデル化します。このアプローチは大規模データセットでのエンドツーエンドのトレーニングを容易にし、次の2つの注目すべき利点を提供します:1)高品質のマスク - 当社の手法は効果的に大規模データセットにスケーリングし、正確なマスクを学習します;2)移転性 - マスク分布の確率モデリングにより、スパースネスの転移学習がドメインやタスク間で可能になります。私たちは、843Mから15Bのパラメータを持つLLMa-2、Nemotron-4、およびGPT-3を含むさまざまなLLMで2:4スパースネスを使用してMaskLLMを評価し、実験結果は最先端の手法に比べて実質的な改善が示されました。たとえば、主要な手法はWikitextで10以上のPerplexity(PPL)を達成しますが、密なモデルの5.12 PPLに対してMaskLLMは凍結された重みでマスクを学習するだけで著しく低い6.72 PPLを達成します。さらに、MaskLLMの学習可能性により、ダウンストリームタスクやドメインに2:4スパースネスを損失なく適用するためのカスタマイズされたマスクが可能になります。コードはhttps://github.com/NVlabs/MaskLLMで入手可能です。
GPT-4oは、さまざまな感情やトーンを持つ音声会話を可能にするオムニモーダルモデルであり、オムニモーダル基盤モデルにおける画期的な進展を示しています。しかし、大規模言語モデルに画像、テキスト、音声を認識および生成させるために公開されているデータだけを用いることは、オープンソースコミュニティにおいて依然として困難です。既存のビジョン言語モデルは音声処理のために外部ツールに依存しており、一方、音声言語モデルは依然として視覚理解能力が限定されているか、まったく持っていない状況です。このギャップを埋めるために、私たちはEMOVA(感情的に普遍的な音声アシスタント)を提案します。これにより、大規模言語モデルにエンドツーエンドの音声機能を可能にし、先進的なビジョン言語パフォーマンスを維持します。意味論的音響的に分離された音声トークナイザーを使用することで、オムニモーダルな整合性が、対応するバイモーダルな整合性を持つモデルと比較して、ビジョン言語および音声能力をさらに向上させることができることに驚くべきことに気付きました。さらに、柔軟な音声スタイル制御(感情やピッチなど)のために軽量なスタイルモジュールが提案されています。EMOVAは、ビジョン言語および音声のベンチマークにおいて最先端のパフォーマンスを達成し、同時に生き生きとした感情を持つオムニモーダルな音声対話をサポートしています。
最近の大規模多モーダルモデル(LMMs)の進歩により、2次元ビジュアル理解タスクにおける彼らの能力が大幅に向上し、画像や動画を効果的に処理・理解することが可能となりました。しかし、3次元シーン理解のための3D認識を備えたLMMsの開発は、大規模な3Dビジョン言語データセットと強力な3Dエンコーダーの不足によって妨げられています。本論文では、LLaVA-3Dと呼ばれるシンプルで効果的なフレームワークを紹介します。LLaVAからの強力な2D理解の事前知識を活用し、LLaVA-3Dは2D理解能力を損なうことなく、3Dシーン理解のために効率的にLLaVAを適応させます。これを実現するために、2D CLIPパッチ特徴とそれらの対応する3D空間内の位置を接続する単純かつ効果的な表現である3Dパッチを採用します。3Dパッチを2D LMMsに統合し、2Dおよび3Dビジョン言語指示の調整を行うことで、2D画像理解と3Dシーン理解の両方のための統一されたアーキテクチャを確立します。実験結果によると、LLaVA-3Dは3Dビジョン言語データセットで訓練された際に、既存の3D LMMsよりも3.5倍速く収束することが示されました。さらに、LLaVA-3Dは、さまざまな3Dタスクで最先端のパフォーマンスを達成するだけでなく、LLaVAと同等の2D画像理解およびビジョン言語会話能力を維持しています。
事前にトレーニングされたテキストから画像への拡散モデルの視覚的先行要素を活用することは、密な予測タスクにおけるゼロショットの汎化を向上させる有望な解決策を提供します。ただし、既存の手法はしばしば元の拡散式を無批判に使用しており、これは密な予測と画像生成との根本的な違いにより最適でない可能性があります。本論文では、密な予測のための拡散式について、品質と効率の両方に焦点を当てた体系的な分析を提供します。そして、画像生成のための元のパラメータ化タイプは、ノイズを予測することを学習することが密な予測にとって有害であること、また、複数段階のノイズ付加/除去拡散プロセスも不要で最適化が難しいことがわかりました。これらの知見に基づいて、Lotusという、密な予測向けのシンプルかつ効果的な適応プロトコルを持つ拡散ベースの視覚基盤モデルを紹介します。具体的には、Lotusは、有害な分散を回避するために、ノイズではなく注釈を直接予測するようにトレーニングされています。また、拡散プロセスを単一段階の手順に再定式化し、最適化を簡素化し、推論速度を大幅に向上させています。さらに、より正確で細かい予測を実現する新しい調整戦略であるディテールプリザーバーを導入しています。トレーニングデータやモデル容量を拡大することなく、Lotusは、さまざまなデータセットでゼロショットの深度および法線推定においてSoTAのパフォーマンスを達成しています。また、多くの既存の拡散ベースの手法よりも数百倍高速であるため、効率を著しく向上させています。
指示チューニングは、通常、言語モデルを指示-応答ペアに微調整することを意味します。私たちは、指示チューニングに比べて不十分な2つの適応(チューニング)の形態を発見しましたが、それでも指示に従う結果をもたらします。これを暗黙の指示チューニングと呼びます。ますます、指示-応答ペアが必要ないことがわかりました。指示と対応する指示がなくても、応答のみでトレーニングを行うと、指示に従う結果が得られます。これは、事前学習済みモデルが、モデルに望ましい応答の分布を教えることで明らかになる指示-応答マッピングを持っていることを示唆しています。ただし、望ましい応答の分布を教える必要がないこともわかりました。詩などの狭いドメインデータでの指示-応答トレーニングでも、広範な指示に従う振る舞い、例えばレシピ生成が可能です。特に、指示が狭い微調整ドメインのものと非常に異なる場合、モデルの応答は微調整ドメインのスタイルに従わないことがあります。暗黙の指示チューニングを説明するために、言語モデルの分布に非常に単純な変更が指示に従う結果をもたらすという仮説を立てました。これを支持するために、事前学習済みモデルとの専門家の積のルールベース言語モデルを手書きで作成し、指示に従う結果を得ました。ルールは、シーケンスを終了する確率を徐々に増やす、繰り返しを罰する、15語の確率を一様に変更する、というものです。要約すると、指示に従う結果を得るために設計されていない適応が、暗黙的にそれを達成できる可能性があります。
大規模言語モデル(LLM)は、長いコンテキスト入力を処理する際に顕著な能力を示していますが、これには計算リソースとレイテンシーの増加が伴います。当研究では、LLMの推論を加速し、GPUメモリ消費を削減するための長いコンテキストのボトルネックに対処する革新的なアプローチを紹介しています。当研究では、LLMがクエリに回答する前に初期層で関連するトークンを特定できることを実証しています。この洞察を活用して、LLMの初期層をフィルターとして使用し、入力トークンを選択して圧縮するアルゴリズムを提案しています。これにより、後続の処理のためのコンテキスト長が大幅に削減されます。当メソッドであるGemFilterは、標準の注意機構やSnapKV/H2Oなどの既存の手法と比較して、速度とメモリ効率の両方で著しい改善が示されます。特に、SOTA手法と比較して2.4倍の高速化とGPUメモリ使用量の30%削減が実現されます。針の中のハイスタックタスクでの評価によると、GemFilterは標準の注意機構やSnapKVを大幅に上回り、LongBenchチャレンジでも同等のパフォーマンスを示します。GemFilterはシンプルでトレーニング不要であり、異なるLLMに広く適用可能です。重要なのは、選択された入力シーケンスを人間が検査できるようにすることで、解釈可能性を提供します。これらの知見は、LLMの展開に実用的な利点をもたらすだけでなく、LLMの内部メカニズムの理解を向上させ、LLMの設計と推論のさらなる最適化の道を開くものです。当コードはhttps://github.com/SalesforceAIResearch/GemFilter で入手可能です。
最近、画像生成の分野において、潜在拡散モデル(LDMs)は大きな進歩を遂げています。LDMsの主な利点の1つは、より効率的なトレーニングと展開を可能にする、圧縮された潜在空間での動作能力です。しかしながら、これらの利点にもかかわらず、LDMsには依然として課題が残っています。例えば、LDMsはしばしば高周波の詳細や複雑な構成を不完全に生成することが観察されています。これらの欠陥の1つの原因は、LDMsの事前および事後のトレーニングが通常出力画像よりも8倍低い空間解像度である潜在空間で行われるためであると仮説を立てています。この問題に対処するため、我々は事後トレーニングプロセスにピクセル空間の監督を追加することを提案し、高周波の詳細をよりよく保持することができると考えています。実験的には、最先端のDiTトランスフォーマーおよびU-Net拡散モデルにおいて、視覚的な品質および視覚的な欠陥のメトリクスの両方において、ピクセル空間の目的の追加が、教師あり品質の微調整と選好に基づく事後トレーニングの両方を大幅に向上させることを示しますが、同じテキストの整合性の品質を維持します。
大規模言語モデル(LLM)の時代において、言語UIの急速な発展傾向により、膨大な会話ログが蓄積されることになる。会話分析(CA)は、会話データから重要な情報を明らかにし、手作業プロセスを効率化し、ビジネス洞察や意思決定をサポートすることを目指している。CAが実行可能な洞察を抽出し、エンパワーメントを促進する必要性がますます際立ち、広範な注目を集めている。しかし、CAの明確な範囲の欠如により、さまざまな技術が分散し、ビジネスアプリケーションを強化するための体系的な技術シナジーを形成することが困難になっている。本論文では、関連する既存の研究を要約するために、徹底的なレビューを行い、CAタスクを体系化する。具体的には、この分野における分断された混沌とした状況に立ち向かうために、CAタスクを形式的に定義し、会話シーンの再構築から、詳細な帰属分析、そして対象となるトレーニングを実行し、最終的に特定の目標を達成するために対象となるトレーニングに基づいて会話を生成するための4つの主要ステップを導出する。さらに、関連するベンチマークを紹介し、潜在的な課題を議論し、産業界と学術界の将来の方向性を指摘する。現在の進展を考えると、多くの取り組みが浅い会話要素の分析に集中していることが明らかであり、これは研究とビジネスの間にかなりのギャップがある。LLMの支援を受けて、最近の研究は原因関係や高度な戦略的タスクに焦点を当てる傾向があり、これらは洗練された高度なタスクである。分析された経験と洞察は、会話ログを対象とするビジネス運用において、広範な応用価値を必然的に持つだろう。
私たちは、単一の画像からの4D人物生成とアニメーションのための革新的なガウススプラッティングフレームワークであるDisco4Dを提案します。既存の手法とは異なり、Disco4Dは服(ガウスモデルを使用)を人体(SMPL-Xモデルを使用)から明確に分離し、生成の詳細と柔軟性を大幅に向上させます。次の技術革新があります。 1) Disco4Dは、効率的に服のガウス分布をSMPL-Xのガウス分布に適合させることを学習します。2) 3D生成プロセスを向上させるために拡散モデルを採用し、入力画像では見えない遮蔽された部分をモデリングします。3) それぞれの服のガウス分布に対する識別エンコーディングを学習し、服のアセットの分離と抽出を容易にします。 さらに、Disco4Dは自然に生き生きとしたダイナミクスを持つ4D人物アニメーションをサポートします。包括的な実験により、Disco4Dの4D人物生成とアニメーションタスクにおける優越性が証明されています。弊社の可視化結果は、https://disco-4d.github.io/ でご覧いただけます。
過去数年間、ColBERTを中心とするマルチベクトル検索手法が、ニューラル情報検索における人気のあるアプローチとなってきました。これらの手法は、文書レベルではなくトークンレベルで表現を保存することにより、特にドメイン外の環境で非常に強力な検索性能を示しています。ただし、関連する大量のベクトルを保存するために必要なストレージとメモリの要件は重要な欠点であり、実用的な採用を妨げています。本論文では、ベクトルの保存が必要な数を劇的に削減するためのシンプルなクラスタリングベースのトークンプーリング手法を紹介します。この手法により、ColBERTインデックスのスペースとメモリのフットプリントを50%削減でき、ほとんど検索性能の低下はありません。さらに、この手法は、ベクトル数を66%〜75%削減し、データセットの大部分で低下が5%未満に抑えられるようにすることも可能です。重要な点として、このアプローチはアーキテクチャの変更やクエリ処理の必要がなく、ColBERTのようなモデルとのインデックス作成時に簡単に導入できます。
人間は他者を単に見て新しい物体を操作する方法を学ぶことができます。ロボットにそのようなデモンストレーションから学習する能力を提供することで、新しい振る舞いを指定する自然なインターフェースが実現されます。本研究では、単眼RGB人間のデモンストレーションから静止した多視点物体スキャンを与えられた場合に、関節物体操作を模倣するための方法であるRobot See Robot Do(RSRD)を開発します。最初に、微分可能なレンダリングを用いた単眼ビデオから3D部位モーションを回復する方法である4D Differentiable Part Models(4D-DPM)を提案します。この合成による分析アプローチは、幾何学的正則化を使用して単一のビデオから3Dモーションを回復するための反復最適化を可能にする部位中心の特徴フィールドを使用します。この4D再構築を与えられた場合、ロボットは示された物体部位モーションを引き起こす両腕運動を計画することで物体の軌跡を複製します。デモンストレーションを部位中心の軌跡として表現することにより、RSRDはロボット自身の形態学的制約を考慮しながら、デモンストレーションの意図した振る舞いを複製することに焦点を当てます。私たちは、4D-DPMの3Dトラッキング精度をグラウンドトゥルースで注釈付けされた3D部位軌跡と、RSRDの9つの物体にわたる10回の試行ごとの物理的実行パフォーマンスを評価します。RSRDの各段階は、90回の試行全体で60%のエンドツーエンド成功率を達成し、平均87%の成功率を達成します。特筆すべきは、大規模な事前学習ビジョンモデルから抽出された特徴フィールドのみを使用して、タスク固有のトレーニング、微調整、データセット収集、または注釈なしで達成されたことです。プロジェクトページ:https://robot-see-robot-do.github.io
大規模かつ複雑なデータセットから意味のある洞察を抽出することは、正確性と関連性を確保するという点で重要な課題を提起します。連続検索やインデックスベースの検索などの従来のデータ検索方法は、入り組んだ相互接続されたデータ構造を扱う際にしばしば失敗し、不完全または誤解を招く出力を生じさせます。これらの制約を克服するために、私たちはStructured-GraphRAGを導入します。これは、自然言語クエリにおける構造化データセット全体の情報検索を向上させるために設計された多目的なフレームワークです。Structured-GraphRAGは、データを構造化された形式で表現し、エンティティ間の複雑な関係を捉える複数の知識グラフを活用し、情報のより微妙かつ包括的な検索を可能にします。このグラフベースのアプローチは、言語モデルの出力における誤りのリスクを低減し、結果の信頼性を向上させることで、応答を構造化された形式に基づかせます。Structured-GraphRAGの効果を示すために、最近公開された方法との性能を比較することで、その有効性を実証します。私たちの調査結果は、Structured-GraphRAGがクエリ処理効率を著しく向上させ、応答時間を短縮することを示しています。私たちのケーススタディはサッカーデータに焦点を当てていますが、このフレームワークの設計は広範囲に適用可能であり、様々な構造化された領域においてデータ分析を強化し、言語モデルアプリケーションを向上させる強力なツールを提供します。