翻訳付きの日次キュレーションされたAI研究論文
我々は、単純なサンプリングと投票の手法を用いることで、大規模言語モデル(LLM)の性能がインスタンス化されたエージェントの数に比例して向上することを発見した。また、この手法は既存の複雑なLLM強化手法と直交しており、その強化の度合いはタスクの難易度と相関している。我々は、この発見を検証し、その発生を促進する特性を研究するために、幅広いLLMベンチマークで包括的な実験を行った。我々のコードは以下のURLで公開されている:https://anonymous.4open.science/r/more_agent_is_all_you_need。
我々は、デジタルエージェントがウェブブラウザを操作し、ユーザーの指示に従って現実世界のタスクをマルチターン対話形式で解決する「会話型ウェブナビゲーション」の問題を提案する。この問題を支援するため、我々はWEBLINXを導入する。これは、2300件の専門家による会話型ウェブナビゲーションのデモンストレーションに基づく10万件のインタラクションを網羅する大規模なベンチマークである。本ベンチマークは、150以上の現実世界のウェブサイトにおける多様なパターンをカバーし、様々なシナリオでのエージェントの訓練と評価に利用できる。情報量の膨大さから、大規模言語モデル(LLM)はリアルタイムでウェブページ全体を処理できない。このボトルネックを解決するため、我々はHTMLページを効率的に剪定する検索型モデルを設計し、関連要素をランク付けする。選択された要素、スクリーンショット、およびアクション履歴を用いて、ウェブナビゲーションにおける人間の行動を再現する能力を持つ様々なモデルを評価する。実験は、小規模なテキスト専用モデルから、プロプライエタリなマルチモーダルLLMまでを対象とする。その結果、微調整された小規模デコーダが、最高のゼロショットLLM(GPT-4Vを含む)を上回るだけでなく、スクリーンショットを明示的に事前学習した大規模なマルチモーダルモデルも上回ることがわかった。しかし、すべての微調整モデルは、未見のウェブサイトへの汎化に苦戦する。我々の知見は、新たな設定に汎化できる大規模マルチモーダルモデルの必要性を強調する。我々のコード、データ、およびモデルは研究目的で公開されている:https://mcgill-nlp.github.io/weblinx
人工知能システムの開発は、静的なタスク特化型モデルから、幅広いアプリケーションにおいて優れた性能を発揮できる動的でエージェントベースのシステムへと移行しつつある。本研究では、多様な領域、データセット、タスクにわたってAIエージェントを訓練するための新たなマルチタスクエージェント訓練パラダイムを用いたインタラクティブエージェント基盤モデルを提案する。我々の訓練パラダイムは、視覚的マスク化オートエンコーダ、言語モデリング、次行動予測といった多様な事前学習戦略を統合し、汎用性と適応性を備えたAIフレームワークを実現する。本フレームワークの性能を、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域で実証し、各領域において意味的かつ文脈的に適切な出力を生成する能力を示す。我々のアプローチの強みは、ロボティクスシーケンス、ゲームプレイデータ、大規模映像データセット、テキスト情報といった多様なデータソースを活用し、効果的なマルチモーダルおよびマルチタスク学習を可能にする汎用性にある。本アプローチは、汎用的で行動指向のマルチモーダルシステムを開発するための有望な道筋を提供する。
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を発揮しています。しかし、その能力は、物理科学や生物医学科学など、事前学習コーパスにおいて十分に代表されていない高度に専門化された領域では低下します。本研究では、汎用LLMを専門領域における効果的なタスク解決者として再利用する方法を探ります。我々は、LLMの埋め込み層に追加される連続ベクトルとしてパラメータ化されたカスタム入力タグを学習するための、モデルに依存しない新しいフレームワークを導入します。これらのタグは、LLMを条件付けるために使用されます。我々は2種類の入力タグを設計します:ドメインタグは、専門的な表現(例えば化学式)を区切り、ドメインに関連するコンテキストを提供するために使用されます。関数タグは、特定の関数(例えば分子特性の予測)を表し、関数解決の指示を圧縮するために使用されます。我々は、補助データとドメイン知識を使用してこれらのタグを学習するための3段階のプロトコルを開発します。タスクドメインとタスク関数を明示的に分離することにより、我々の方法は、入力タグの多様な組み合わせを通じて、未見の問題に対するゼロショット一般化を可能にします。また、タンパク質や化学特性の予測、薬物-標的相互作用のモデリングなど、さまざまな専門領域におけるLLMの性能を向上させ、これらのタスクに特化した専門モデルを上回ります。
本技術報告書は、2023年半ばにリリースされたオープンソースの多言語E5テキスト埋め込みモデルのトレーニング手法と評価結果を提示する。異なるサイズ(small / base / large)の3つの埋め込みモデルが提供され、推論効率と埋め込み品質のバランスを実現している。トレーニング手順は、英語E5モデルのレシピに従い、10億の多言語テキストペアを用いた対照的な事前学習を行い、その後、ラベル付きデータセットの組み合わせによるファインチューニングを実施した。さらに、最新の英語専用モデルと同等の性能を発揮する新しい指示チューニング埋め込みモデルを紹介する。モデルリリースに関する情報は、https://github.com/microsoft/unilm/tree/master/e5 で確認できる。
最近のパーソナライズされたテキストから画像生成(P-T2I)モデルの進展にもかかわらず、被写体駆動型のT2Iは依然として課題が多い。主なボトルネックとして、1) 膨大なトレーニングリソースの必要性、2) ハイパーパラメータの感度による出力の不整合、3) 新しい視覚概念と構図の整合性のバランスが挙げられる。これらの制約に対処するため、我々はまずT2I拡散モデルの核となる哲学を再確認する。現代の被写体駆動型T2Iアプローチは主にLatent Diffusion Models(LDMs)に依存しており、クロスアテンションレイヤーを通じてT2Iマッピングを実現している。LDMsは明らかな利点を提供するものの、P-T2I手法がこれらの拡散モデルの潜在空間に依存することは、リソース需要を大幅に増大させ、結果の不整合を招き、単一の望ましい画像を得るために多数の反復を必要とする。最近、ECLIPSEは、拡散型テキストから画像の事前知識を必要とせずに、UnCLIPベースのT2Iモデルをトレーニングするためのよりリソース効率の良い方法を示した。これを基に、我々はlambda-ECLIPSEを導入する。本手法は、効果的なP-T2Iが必ずしも拡散モデルの潜在空間に依存しないことを示す。lambda-ECLIPSEは、わずか34Mのパラメータと1.6Mの画像-テキストインタリーブデータを用いて、たった74 GPU時間でトレーニングされ、単一、複数被写体、およびエッジガイド付きのT2Iパーソナライゼーションを実現する。広範な実験を通じて、lambda-ECLIPSEが既存のベースラインを構図の整合性において凌駕しつつ、概念の整合性性能を維持し、大幅に低いリソース使用量でこれを達成することを確認した。
インコンテキスト学習(ICL、別名Few-shotプロンプティング)は、少数の入力-出力例から学習することで、大規模言語モデル(LLM)を下流タスクに適応させる標準的な方法となっています。しかし、これまでのICLベースのアプローチはすべて、正しい入力-出力ペアからのみ学習していました。本論文では、このパラダイムを再考し、与えられた少数の入力-出力例からさらに多くを学習する方法を提案します。我々は「学習原則(LEAP)」を導入します。まず、意図的にモデルにこれらの少数の例でミスを起こさせます。次に、これらのミスを振り返り、そこから明示的なタスク固有の「原則」を学習します。これらの原則は、類似の問題を解決し、一般的なミスを回避するのに役立ちます。最後に、モデルに元のFew-shot例とこれらの学習された一般原則を使用して、未見のテスト質問に答えるよう促します。我々はLEAPを、マルチホップ質問応答(Hotpot QA)、テキストQA(DROP)、Big-Bench Hard推論、数学問題(GSM8KおよびMATH)など、幅広いベンチマークで評価しました。これらのすべてのベンチマークにおいて、LEAPはGPT-3.5-turbo、GPT-4、GPT-4 turbo、Claude-2.1などの最強のLLMを改善しました。例えば、LEAPは、標準的なFew-shotプロンプティングを使用したGPT-4と比較して、DROPで7.5%、HotpotQAで3.3%の改善を示しました。重要なことに、LEAPは標準的なFew-shotプロンプティング設定よりも多くの入力や例を必要としません。
我々は、SPHINXを基盤とした広範なマルチモーダル大規模言語モデル(MLLM)シリーズであるSPHINX-Xを提案する。アーキテクチャとトレーニング効率を向上させるため、SPHINXフレームワークを改変し、冗長な視覚エンコーダを削除し、完全にパディングされたサブイメージをスキップトークンでバイパスし、多段階トレーニングをワンステージのオールインワンパラダイムに簡素化した。MLLMの潜在能力を最大限に引き出すため、言語、視覚、視覚言語タスクにおける公開リソースを網羅した包括的なマルチドメイン・マルチモーダルデータセットを構築した。さらに、我々が独自にキュレートしたOCR集中型データセットとSet-of-Markデータセットを追加し、多様性と汎用性を拡張した。TinyLlama1.1B、InternLM2-7B、LLaMA2-13B、Mixtral8x7Bといった異なる基盤LLMをトレーニングすることで、パラメータサイズと多言語能力が異なるMLLMのスペクトルを獲得した。包括的なベンチマークにより、マルチモーダル性能とデータおよびパラメータスケールとの間に強い相関があることが明らかになった。コードとモデルはhttps://github.com/Alpha-VLLM/LLaMA2-Accessoryで公開されている。
SPIRIT-LMを紹介します。これは、テキストと音声を自由に組み合わせるマルチモーダル基盤言語モデルです。本モデルは、事前学習済みのテキスト言語モデルを基盤としており、テキストと音声ユニットを用いた継続的な学習によって音声モダリティに拡張されています。音声とテキストのシーケンスは単一のトークンセットとして連結され、自動的にキュレーションされた小規模な音声-テキスト並列コーパスを用いた単語レベルのインターリーブ手法で学習されます。SPIRIT-LMには2つのバージョンがあります:音声の意味ユニットを使用するBASEバージョンと、意味ユニットに加えてピッチやスタイルユニットを用いて表現力をモデル化するEXPRESSIVEバージョンです。どちらのバージョンも、テキストはサブワードBPEトークンでエンコードされます。結果として得られるモデルは、テキストモデルの意味理解能力と音声モデルの表現能力の両方を備えています。さらに、SPIRIT-LMがモダリティを跨いだ新しいタスク(例:ASR、TTS、音声分類)を数ショット学習で習得できることを実証します。
本論文では、拡散モデルから生成された合成データセットを用いて、物体検出器の能力(例えば、カテゴリの拡張や検出性能の向上)を強化する新しいパラダイムを提案する。具体的には、事前学習済みの生成拡散モデルにインスタンスレベルのグラウンディングヘッドを統合し、生成画像内の任意のインスタンスを位置特定する能力を付与する。このグラウンディングヘッドは、既存の物体検出器からの教師信号と、検出器がカバーしない(新規)カテゴリに対する新たな自己学習スキームを用いて、カテゴリ名のテキスト埋め込みと拡散モデルの領域視覚特徴を整合させるように訓練される。この強化版拡散モデルはInstaGenと呼ばれ、物体検出のためのデータ合成器として機能する。我々は徹底的な実験を行い、InstaGenから生成された合成データセットで訓練することで物体検出器が強化され、オープン語彙(+4.5 AP)およびデータ希薄(+1.2から5.2 AP)シナリオにおいて、既存の最先端手法を上回る性能を示すことを実証した。
ほとんどのTransformerベースのビデオエンコーダーは、その二次的な計算複雑さのため、短い時間的コンテキストに限定されています。このコンテキストを拡張するための様々な試みがなされてきましたが、それらはしばしば概念的および計算的な複雑さの増大という代償を伴っていました。私たちは、既存の事前学習済みビデオTransformerを再利用し、過去の活性化から非パラメトリックに導出されたメモリに注意を向けるように単純にファインチューニングすることを提案します。冗長性削減を活用することで、私たちのメモリ統合型ビジョンTransformer(MC-ViT)は、過去にわたるコンテキストを容易に拡張し、より長いビデオから学習する際に優れたスケーリング特性を示します。これにより、MC-ViTはEgoSchema、Perception Test、Diving48における長文脈ビデオ理解において新たな最先端を達成し、桁違いに多くのパラメータを有する手法を凌駕する性能を示します。
Vision-Language(VL)モデルは、多モーダル推論における顕著な進展を可能にし、重要な研究焦点となっています。これらのアーキテクチャは通常、視覚エンコーダ、大規模言語モデル(LLM)、および視覚的特徴をLLMの表現空間に整合させる投影モジュールで構成されています。その成功にもかかわらず、重要な制限が残っています:視覚エンコーディングプロセスは、画像に関連する質問という形で提示されるユーザークエリから切り離されたままです。その結果、生成される視覚的特徴は、クエリ固有の画像要素に最適に調整されていない可能性があります。この問題に対処するため、我々はQA-ViT(Question Aware Vision Transformer)を提案します。これは、多モーダル推論のための質問認識を視覚エンコーダに直接組み込むアプローチであり、提示された質問に関連する画像の側面に焦点を当てた動的な視覚的特徴を生成します。QA-ViTはモデルに依存せず、任意のVLアーキテクチャに効率的に組み込むことができます。広範な実験により、我々の手法を様々な多モーダルアーキテクチャに適用することの有効性が実証され、多様なタスクにわたる一貫した改善が示され、視覚的およびシーンテキスト理解の向上における可能性が示されています。
本論文では、パラメータ化された確率拡散過程によって暗黙的に定義される分布を最適化する新しいアルゴリズムを提案する。これにより、サンプリング過程のパラメータを最適化することで、その結果として得られる分布を変更することが可能となる。我々は、これらの過程に対する一階最適化のための一般的なフレームワークを導入し、最適化とサンプリングのステップを単一のループ内で同時に実行する。このアプローチは、最近の二段階最適化と自動暗黙微分の進展に着想を得ており、確率分布の空間における最適化としてのサンプリングの視点を活用している。我々は、本手法の性能に関する理論的保証を提供するとともに、実世界の設定における有効性を示す実験結果を提示する。
新しい環境、慣習、および法律に運転行動を適応させることは、自動運転における長年の課題であり、自動運転車両(AV)の広範な展開を妨げてきた。本論文では、LLaDAを紹介する。これは、人間のドライバーと自動運転車両が、新しい場所の交通ルールに基づいてタスクとモーションプランを適応させることで、どこでも運転できるようにするシンプルでありながら強力なツールである。LLaDAは、大規模言語モデル(LLM)の印象的なゼロショット汎化能力を活用し、現地の運転者ハンドブックに記載された交通ルールを解釈することでこれを実現する。大規模なユーザー調査を通じて、LLaDAの指示が、予期せぬ状況における曖昧さを解消するのに有用であることを示す。また、実世界のデータセットにおいて、LLaDAがAVのモーションプランニングポリシーを適応させる能力を実証する。LLaDAは、すべての評価指標においてベースラインのプランニング手法を上回る。詳細については、当社のウェブサイトをご確認ください: https://boyiliee.github.io/llada。
本研究では、オフラインのアクター・クリティック強化学習が、トランスフォーマーなどの大規模モデルにスケール可能であり、教師あり学習と同様のスケーリング則に従うことを示す。132の連続制御タスクを含む大規模データセットにおいて、サブ最適およびエキスパートの行動が混在するマルチタスク学習において、オフラインのアクター・クリティックアルゴリズムが強力な教師あり行動クローニングのベースラインを上回ることを確認した。また、Perceiverベースのアクター・クリティックモデルを導入し、自己注意およびクロス注意モジュールを用いたオフライン強化学習を実現するための重要なモデル特徴を明らかにした。全体として、以下の点が明らかとなった:i)単純なオフラインアクター・クリティックアルゴリズムは、現在主流の行動クローニングパラダイムから徐々に移行するための自然な選択肢であり、ii)オフライン強化学習を通じて、サブ最適なデモンストレーションや自己生成データから、現実のロボットタスクを含む多くのドメインを同時に習得するマルチタスクポリシーを学習することが可能である。