翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)と視覚言語モデル(VLM)は、常識推論などの複数のタスクで優れた性能を発揮することが証明されています。これらのモデルは強力ではありますが、空間関係、アフォーダンス、物理、レイアウトなど、より豊かな概念を含む3D物理世界に基づいていません。本研究では、3D世界を大規模言語モデルに注入し、新たな3D-LLMファミリーを提案します。具体的には、3D-LLMは3D点群とその特徴を入力として受け取り、キャプション生成、高密度キャプション生成、3D質問応答、タスク分解、3Dグラウンディング、3D支援対話、ナビゲーションなど、多様な3D関連タスクを実行できます。我々が設計した3種類のプロンプトメカニズムを使用して、これらのタスクをカバーする30万以上の3D言語データを収集しました。3D-LLMを効率的に訓練するために、まずレンダリングされたマルチビュー画像から3D特徴を取得する3D特徴抽出器を利用します。次に、2D VLMをバックボーンとして使用して3D-LLMを訓練します。3D位置特定メカニズムを導入することで、3D-LLMは3D空間情報をより良く捕捉できます。ScanQAでの実験では、我々のモデルが最先端のベースラインを大幅に上回ることを示しています(例えば、BLEU-1スコアは最先端スコアを9%上回ります)。さらに、3Dキャプション生成、タスク構成、3D支援対話のための保持データセットでの実験では、我々のモデルが2D VLMを上回ることを示しています。質的な例でも、我々のモデルが既存のLLMやVLMの範囲を超えたタスクを実行できることが示されています。プロジェクトページ: https://vis-www.cs.umass.edu/3dllm/
事前学習済み大規模言語モデル(LLM)は、最近、自律的なウェブナビゲーションにおいてより優れた汎化性能とサンプル効率を達成しています。しかし、実世界のウェブサイトでの性能は依然として、(1) オープンドメイン性、(2) 限られたコンテキスト長、(3) HTMLに対する帰納的バイアスの欠如といった課題に直面しています。本論文では、自然言語の指示に従って実際のウェブサイト上でタスクを完了できるLLM駆動エージェント「WebAgent」を紹介します。WebAgentは、指示を標準的なサブ指示に分解して事前に計画を立て、長いHTMLドキュメントをタスクに関連するスニペットに要約し、それらから生成されたPythonプログラムを通じてウェブサイト上で行動します。WebAgentは、Flan-U-PaLMを基盤としたコード生成と、ローカルおよびグローバルな注意機構と長範囲のノイズ除去目標を組み合わせた新しい事前学習LLMであるHTML-T5を計画と要約のために設計しています。実証実験により、我々のアプローチが実ウェブサイトでの成功率を50%以上向上させ、HTML-T5がHTMLベースのタスクを解決する最適なモデルであることを示しました。MiniWoBウェブナビゲーションベンチマークでは従来のSoTAを14.9%上回る成功率を達成し、オフラインのタスク計画評価でもより高い精度を実現しました。
画像生成と編集における未開拓のフロンティアの一つは、2つの入力画像間の補間タスクであり、これは現在展開されているすべての画像生成パイプラインに欠けている機能です。私たちは、このような機能がモデルの創造的な応用を拡大できると主張し、潜在拡散モデルを用いたゼロショット補間の方法を提案します。補間を一連の減少するノイズレベルで潜在空間に適用し、その後、テキスト反転と(オプションで)被写体のポーズから導出された補間テキスト埋め込みに基づいてノイズ除去を行います。より一貫性を高めるため、または追加の基準を指定するために、複数の候補を生成し、CLIPを使用して最高品質の画像を選択することができます。私たちは、多様な被写体のポーズ、画像スタイル、および画像内容にわたって説得力のある補間を実現し、FIDなどの標準的な定量的メトリクスが補間の品質を測定するには不十分であることを示します。コードとデータはhttps://clintonjwang.github.io/interpolationで入手可能です。
大規模言語モデルはその高い柔軟性を証明し、抽象的な要約やオープンエンドの質問応答など、幅広い生成タスクを解決できることが示されています。本論文では、LLMの能力を拡張し、音声認識を可能にするために、小さな音声エンコーダを直接接続する手法を提案します。音声埋め込みのシーケンスをテキストトークン埋め込みの前に直接付加することで、LLMを自動音声認識(ASR)システムに変換し、テキスト処理と全く同じ方法で使用することができます。Multilingual LibriSpeech(MLS)での実験では、オープンソースのLLaMA-7BにConformerエンコーダを組み込むことで、単一言語ベースラインを18%上回り、LLaMAが主に英語テキストで訓練されているにもかかわらず、多言語音声認識を実現できることが示されました。さらに、LLMを完全に凍結して元の能力を維持できるかどうか、音声エンコーダをスケールアップするかどうか、音声エンコーダのストライドを増やして埋め込み数を減らすかどうかを調査するために、アブレーションスタディを実施しました。これらの研究の結果から、LLMが凍結されている場合や、音声エンコーダでほぼ1秒のストライドが使用されている場合でも、多言語ASRが可能であることが示され、LLMが長時間の音声を処理する可能性が開かれました。
ChatGPTを代表として、多くの企業が大規模なTransformerモデルに基づくサービスを提供し始めています。しかし、そのようなサービスを利用すると、ユーザーのプロンプトがモデル提供者に漏洩することを避けられません。これまでの研究では、安全なマルチパーティ計算(MPC)を用いてTransformerモデルの安全な推論を検討し、モデルパラメータとクライアントのプロンプトを秘匿する方法が研究されてきました。それにもかかわらず、これらのフレームワークは、モデルの性能、効率、および展開の面でまだ制限があります。これらの制限に対処するため、我々は高速かつ安全なTransformerモデル推論を可能にするフレームワークPUMAを提案します。我々のフレームワークは、GeLUやSoftmaxなどの高コストな関数に対して高品質な近似を設計し、モデルの性能を維持しながら安全な推論のコストを大幅に削減します。さらに、Transformerアーキテクチャを損なうことなく、所望の機能を忠実に実装する安全なEmbeddingおよびLayerNorm手順を設計しました。PUMAは、最先端のMPCフレームワークであるMPCFORMER(ICLR 2023)よりも約2倍高速であり、ファインチューニングなしで平文モデルと同等の精度を達成しています(これはこれまでの研究では達成できなかったことです)。 さらに、PUMAはLLaMA-7Bを約5分で評価し、1トークンを生成することができます。我々の知る限り、このようなパラメータサイズのモデルがMPC下で評価されたのは初めてのことです。PUMAは、SecretFlow-SPUのGithubリポジトリでオープンソース化されています。
大規模言語モデル(LLM)がより困難なタスクを実行するにつれ、その動作の正確性と安全性を検証することが難しくなっています。この問題に対処するための一つのアプローチは、LLMに推論を外部化させるよう促すことです。例えば、質問に答える際に段階的な推論を生成させる(Chain-of-Thought; CoT)方法があります。この推論により、モデルがタスクを実行する際に使用するプロセスを確認できる可能性があります。しかし、このアプローチは、表明された推論がモデルの実際の推論を忠実に反映していることに依存しており、必ずしもそうとは限りません。CoT推論の忠実性を向上させるために、私たちはモデルに質問をサブ質問に分解させて推論を生成させます。分解ベースの手法は、質問応答タスクにおいて強力な性能を発揮し、CoTに近い性能を達成しつつ、最近提案されたいくつかの指標においてモデルの表明された推論の忠実性を向上させます。モデルに別々のコンテキストでより単純なサブ質問に答えさせることにより、CoTと比較してモデル生成推論の忠実性を大幅に向上させつつ、CoTの性能向上の一部も達成します。私たちの結果は、モデル生成推論の忠実性を向上させることが可能であることを示しており、継続的な改善により、LLMの動作の正確性と安全性を検証可能にする推論が得られる可能性があります。
現代の言語モデルは膨大な事実知識を保持しています。しかし、一部の事実は誤って導出されたり、時間の経過とともに陳腐化したりするため、事実に反する生成が行われることがあります。これを受けて、モデルに符号化された事実を更新するための様々な編集手法が開発されてきました。これらの手法の評価は主に、個々の事実が正常に注入されたかどうか、および他の対象に関する類似の予測が変化していないかどうかをテストすることに焦点を当ててきました。ここで我々は、このような評価は限定的であると主張します。なぜなら、1つの事実(例:「ジャック・デップはジョニー・デップの息子である」)を注入すると、モデルが更新する必要のある追加の事実(例:「ジャック・デップはリリー=ローズ・デップの兄弟である」)という「波及効果」が生じるからです。この問題に対処するため、我々は編集が関連する事実に及ぼす影響を考慮した新しい評価基準を提案します。これらの基準を用いて、5,000件の事実編集からなる診断ベンチマークを構築し、様々なタイプの波及効果を捉えます。我々は主要な編集手法をこのベンチマークで評価し、現在の手法ではモデルの知識に一貫した変更を導入できないことを示します。さらに、シンプルなインコンテキスト編集ベースラインが我々のベンチマークで最高スコアを獲得することを発見し、モデル編集の有望な研究方向性を示唆します。
我々は、人間のフィードバックを使用せずに言語モデルを自然言語の原則に沿わせるための手法として、Contrast Distillationによる強化学習(Reinforcement Learning from Contrast Distillation, RLCD)を提案する。RLCDでは、対照的なポジティブおよびネガティブなプロンプトを用いて生成された、高品質と低品質の例を含む模擬選好ペアを使用して選好モデルを訓練する。その後、この選好モデルを用いて、未調整のベース言語モデルを強化学習によって改善する。実験的には、RLCDは、RLAIF(Bai et al., 2022b)やコンテキスト蒸留(Huang et al., 2022)のベースラインを、無害性、有用性、ストーリーアウトライン生成という3つの多様なアライメントタスクにおいて、また7Bおよび30Bモデルスケールの選好データシミュレーションにおいて上回る性能を示した。
本論文は、大規模言語モデル(LLM)のトレーニングにおける任意対任意ネットワーク構築の既存パラダイムに挑戦するものである。我々は、LLMが独特の通信パターンを示し、最適に近いトレーニング性能を達成するためには、GPUの小さなグループ内でのみ高帯域幅の任意対任意通信が必要であることを示す。これらのGPUグループ間では、通信は無視できるほど少なく、疎で均質である。我々は、LLMの通信要件に密接に適合する新しいネットワークアーキテクチャを提案する。このアーキテクチャでは、クラスタを非ブロッキングの任意対任意高帯域幅相互接続(HBドメインと呼ぶ)で相互接続されたGPUのセットに分割する。HBドメイン間では、ネットワークは通信需要のあるGPUのみを接続する。我々はこのネットワークを「レールのみ」接続と呼び、提案するアーキテクチャが、LLMトレーニングの性能を損なうことなく、最先端の任意対任意Closネットワークと比較してネットワークコストを最大75%削減することを示す。
視覚表現の自己教師あり学習はこれまで、物体の動きや位置を捉えず、画像や動画内の物体を識別・区別することに焦点を当てたコンテンツ特徴の学習に注力してきました。一方、オプティカルフロー推定は、推定対象となる画像の内容理解を伴わないタスクです。本研究ではこれら二つのアプローチを統合し、MC-JEPAという共同埋め込み予測アーキテクチャと自己教師あり学習手法を提案します。これにより、共有エンコーダ内でオプティカルフローとコンテンツ特徴を共同で学習し、オプティカルフロー推定の目的関数と自己教師あり学習の目的関数が互いに利益をもたらし、動き情報を組み込んだコンテンツ特徴を学習できることを実証しました。提案手法は、既存の教師なしオプティカルフローベンチマークと同等の性能を達成するだけでなく、画像や動画のセマンティックセグメンテーションなどの下流タスクにおいても、一般的な自己教師あり学習手法と同等の性能を発揮します。
DETRに似たモデルは、検出器の性能を大幅に向上させ、従来の畳み込みモデルを凌駕する成果を上げています。しかし、従来のエンコーダ構造では、すべてのトークンが区別なく平等に扱われるため、冗長な計算負荷が生じます。最近のスパース化戦略では、情報量の多いトークンのサブセットを活用して注意機構の複雑さを軽減し、スパースエンコーダを通じて性能を維持しています。しかし、これらの手法は信頼性の低いモデル統計に依存する傾向があります。さらに、単にトークンの数を減らすことは、検出性能を大きく低下させ、これらのスパースモデルの応用を制限します。我々は、計算効率とモデル精度のバランスをより良くするために、より情報量の多いトークンに注意を集中させるFocus-DETRを提案します。具体的には、マルチスケールの特徴マップから得られるオブジェクトの位置情報とカテゴリ意味情報の両方を考慮したトークンスコアリングメカニズムを含むデュアルアテンションでエンコーダを再構築します。これにより、背景クエリを効率的に排除し、スコアに基づいて細粒度のオブジェクトクエリの意味的相互作用を強化します。同じ設定での最先端のスパースDETRに似た検出器と比較して、我々のFocus-DETRは同等の複雑さを維持しながら、COCOで50.4AP(+2.2)を達成します。コードはhttps://github.com/huawei-noah/noah-research/tree/master/Focus-DETR および https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR で公開されています。
長期活動予測は特に挑戦的な研究課題である。なぜなら、観測された行動間の時間的関係を理解するだけでなく、人間の活動の多様性と複雑性を把握する必要があるからだ。高価な人間によるアノテーションを通じた強力な教師あり学習に依存しているにもかかわらず、最先端の予測手法は未見のデータに対してしばしば汎化性能が低い。この問題を緩和するため、我々はMultiscale Video Pretraining(MVP)を提案する。これは、複数の時間スケールにわたって将来のビデオクリップの文脈化された表現を予測することを学習することで、予測のための頑健な表現を学習する新しい自己教師あり事前学習手法である。MVPは、ビデオ内の行動がマルチスケールの性質を持つという我々の観察に基づいている。ここで、基本的な行動は通常短い時間スケールで発生し、より複雑な行動はより長い時間スケールにわたる可能性がある。我々は、長期行動予測やビデオ要約予測を含む下流の長期予測タスクにおいて、MVPを最先端の自己教師ありビデオ学習手法と比較する。Ego4DおよびEpic-Kitchens-55/100データセットにわたる包括的な実験により、MVPが最先端の手法を大幅に上回ることを示す。特に、MVPはビデオ要約予測において既存手法に対して20%以上の相対的な精度向上を達成する。