翻訳付きの日次キュレーションされたAI研究論文
ユーザーが有料で問い合わせ可能な大規模言語モデル(LLM)が急速に増加しています。私たちは、GPT-4、ChatGPT、J1-Jumboなどの人気のあるLLM APIの問い合わせコストを調査し、これらのモデルが異なる価格体系を持ち、その料金が最大で2桁の差があることを明らかにしました。特に、大量のクエリやテキストに対してLLMを使用することは高額になり得ます。この問題を動機として、LLMの使用に伴う推論コストを削減するためにユーザーが活用できる3つの戦略を概説し、議論します:1)プロンプト適応、2)LLM近似、3)LLMカスケード。例として、FrugalGPTを提案します。これは、LLMカスケードのシンプルで柔軟な実装であり、異なるクエリに対してどのLLMの組み合わせを使用するかを学習し、コストを削減しつつ精度を向上させます。私たちの実験では、FrugalGPTが最良の個別LLM(例:GPT-4)の性能を維持しつつ、最大98%のコスト削減を実現するか、同じコストでGPT-4よりも4%の精度向上を達成できることを示しています。ここで提示されたアイデアと発見は、LLMを持続可能かつ効率的に使用するための基盤を築くものです。
「命令チューニング」された生成型大規模言語モデル(LLM)は、新しいタスクへの汎化能力において驚くべき性能を発揮していますが、その訓練段階では多様で高品質な命令データ(ChatGPTやGPT-4など)が大量に必要とされます。残念ながら、特に人間が作成した高品質なデータを取得することは、コストとアクセシビリティの両面で大きな課題を抱えています。さらに、プライバシーに関する懸念が、そのようなデータへのアクセスをさらに制限し、取得プロセスを複雑で微妙なものにしています。その結果、チューニングされたモデルの汎用性が妨げられ、特定の文脈での有効性が制限される可能性があります。この問題に対処するため、本研究では、連合学習(FL)をLLMの命令チューニングの学習フレームワークとして活用する新しいアプローチである「連合命令チューニング(FedIT)」を提案します。これは、LLMに対するFLベースの命令チューニングの初めての探求となります。テキストデータが主にエンドユーザーによって生成されることを考えると、プライバシーを保護しつつ、ローカルデバイスに保存された多様な命令を効果的に活用するために、FLアプローチを設計・適応させることが極めて重要です。本論文では、広く使用されているGPT-4の自動評価を実施し、提案されたFedITフレームワークを用いてクライアント側の異質で多様な命令セットを活用することで、限られたローカル命令のみを用いた集中型訓練と比較してLLMの性能が向上することを示します。さらに、本論文では、Shepherdという名前のGitHubリポジトリを開発しました。このリポジトリは、多様なカテゴリにわたる異質な命令を用いたLLMの連合ファインチューニングを探求するための基礎的なフレームワークを提供します。
本論文では、InternChat(略称iChat)というインタラクティブなビジュアルフレームワークを提案します。このフレームワークは、ChatGPTのような計画・推論能力を備えたチャットボットと、画面上の画像や動画を直接操作するためのポインティング(ジェスチャーやカーソルなど)といった非言語的指示を統合しています。ポインティング動作は、視覚中心のタスクにおいて、細かな制御や編集、ビジュアルコンテンツの生成を必要とする場合に、より柔軟性と精度を提供します。InternChatという名称は、インタラクション(interaction)、非言語的(nonverbal)、チャットボット(chatbots)を意味しています。純粋な言語に依存する既存のインタラクティブシステムとは異なり、ポインティング指示を取り入れることで、提案するiChatは、ユーザーとチャットボット間のコミュニケーション効率を大幅に向上させ、特にオブジェクト数が2つ以上の複雑な視覚シナリオにおいて、チャットボットの視覚中心タスクの精度を高めます。さらに、iChatでは、LLMの制御能力を向上させるための補助制御メカニズムが使用され、高品質なマルチモーダル対話のためにHuskyと呼ばれる大規模視覚言語モデルが微調整されています(GPT-4品質の93.89%でChatGPT-3.5-turboを上回る性能を示しています)。この研究が、将来のインタラクティブビジュアルシステムに対する新たなアイデアと方向性を刺激することを期待しています。コードはhttps://github.com/OpenGVLab/InternChatでご覧いただけます。
大規模言語モデル(LLM)は、最近さまざまなNLPタスクで印象的な性能を発揮することが示されています。多段階の推論タスクに取り組むために、Few-shot Chain-of-Thought(CoT)プロンプティングでは、手動で作成された段階的な推論デモンストレーションをいくつか含めることで、LLMが明示的に推論ステップを生成し、推論タスクの精度を向上させることができます。この手作業をなくすために、Zero-shot-CoTはターゲットの問題文に「段階的に考えましょう」というプロンプトを連結してLLMに入力します。Zero-shot-CoTの成功にもかかわらず、計算エラー、ステップの欠落エラー、意味の誤解エラーという3つの課題が依然として存在します。ステップの欠落エラーに対処するために、我々はPlan-and-Solve(PS)プロンプティングを提案します。これは、まずタスク全体を小さなサブタスクに分割する計画を立て、次にその計画に従ってサブタスクを実行するという2つのコンポーネントで構成されます。計算エラーに対処し、生成される推論ステップの品質を向上させるために、PSプロンプティングをより詳細な指示で拡張し、PS+プロンプティングを導出します。我々は、提案したプロンプティング戦略を3つの推論問題にわたる10のデータセットで評価しました。GPT-3を用いた実験結果は、提案したゼロショットプロンプティングがすべてのデータセットでZero-shot-CoTを大幅に上回り、Zero-shot-Program-of-Thoughtプロンプティングと同等かそれ以上の性能を示し、数学的推論問題では8-shot CoTプロンプティングと同等の性能を持つことを示しています。コードはhttps://github.com/AGI-Edgerunners/Plan-and-Solve-Promptingで公開されています。
テキストから画像を生成する人気モデルとして登場した拡散モデルは、テキストプロンプトに導かれて高品質で内容豊富な画像を生成することができます。しかし、入力プロンプトが簡潔な物語形式の場合、既存のモデルでは意味理解と常識推論に限界があり、低品質な画像生成につながります。物語形式のプロンプトに対する能力を向上させるため、我々は事前学習済み拡散モデル向けのシンプルかつ効果的なパラメータ効率型ファインチューニング手法「Semantic Understanding and Reasoning adapter(SUR-adapter)」を提案します。この目標を達成するため、まず57,000以上の意味的に修正されたマルチモーダルサンプルからなる新しいデータセットSURDを収集・注釈しました。各サンプルには、簡潔な物語形式プロンプト、複雑なキーワードベースのプロンプト、および高品質な画像が含まれています。次に、物語形式プロンプトの意味表現を複雑なプロンプトに整列させ、大規模言語モデル(LLM)の知識を知識蒸留を通じてSUR-adapterに転移させることで、テキストから画像生成のための高品質なテキスト意味表現を構築する強力な意味理解と推論能力を獲得させます。複数のLLMと人気のある事前学習済み拡散モデルを統合して実験を行い、我々のアプローチが画像品質の低下なしに簡潔な自然言語を理解・推論する拡散モデルを可能にする効果を示しました。我々のアプローチは、テキストから画像を生成する拡散モデルの使用を容易にし、ユーザーエクスペリエンスを向上させることができ、簡潔な物語形式プロンプトと複雑なキーワードベースプロンプトの間の意味的ギャップを埋めることで、ユーザーフレンドリーなテキストから画像を生成するモデルの開発をさらに進める可能性を示しています。
プロンプトチューニングは、事前学習済み言語モデルのパラメータ効率的なチューニング手法の一つとして成功を収めています。最もパラメータ効率的な手法であるにもかかわらず(チューニングされたソフトプロンプトは全パラメータの0.1%未満)、他の効率的なチューニング手法と比べて性能が劣ることが多く、ハイパーパラメータの選択にも敏感です。本研究では、Residual Prompt Tuningを提案します。これは、プロンプトチューニングの性能と安定性を大幅に向上させるシンプルで効率的な手法です。我々は、残差接続を持つ浅いネットワークを用いてソフトプロンプトの埋め込みを再パラメータ化することを提案します。実験結果から、Residual Prompt TuningはSuperGLUEベンチマークにおいてプロンプトチューニングを大幅に上回ることが示されました。特に、T5-Baseモデルではプロンプトチューニングに対して7ポイントの改善を達成し、性能を損なうことなくプロンプト長を10分の1に短縮できることが確認されました。さらに、本手法は学習率やプロンプトの初期化の選択に対してロバストであり、少数ショット設定においても有効であることを示します。
我々は、人間との多回対話を可能にする視覚と言語モデル「MultiModal-GPT」を提案する。MultiModal-GPTは、詳細なキャプションの生成、興味対象物の数のカウント、ユーザーからの一般的な質問への回答など、人間からの多様な指示に従うことができる。MultiModal-GPTは、OpenFlamingoを基にパラメータ効率の良いファインチューニングを行い、言語モデルのクロスアテンション部分とセルフアテンション部分の両方にLow-rank Adapter(LoRA)を追加している。まず、マルチモーダル指示チューニングのために、視覚と言語データを用いた指示テンプレートを構築し、モデルが人間の指示を理解し従えるようにした。訓練データの質が対話性能に重要であることを発見し、短い回答を含む少数のデータでは、モデルがどの指示に対しても短く応答してしまう傾向がある。MultiModal-GPTの人間との対話能力をさらに向上させるため、言語のみの指示追従データを活用してMultiModal-GPTを共同で訓練する。同じ指示テンプレートを用いた言語のみの指示と視覚言語指示の共同訓練は、対話性能を効果的に向上させる。様々なデモを通じて、MultiModal-GPTが人間と連続対話を行う能力を示す。コードとデモはhttps://github.com/open-mmlab/Multimodal-GPTで公開されている。
本論文では、ビデオデータからNeRFベースの全身アバターを学習する新しい手法であるAvatarReXを提案します。学習されたアバターは、身体、手、顔をまとめて表現豊かに制御できるだけでなく、リアルタイムのアニメーションとレンダリングをサポートします。この目的のために、身体、手、顔を別々にモデル化し、パラメトリックメッシュテンプレートからの構造的先行知識を適切に活用しながら、表現の柔軟性を損なわないような構成的なアバター表現を提案します。さらに、各部位の形状と外観を分離します。これらの技術的設計により、高品質な自由視点画像をリアルタイムフレームレートで合成するための専用の遅延レンダリングパイプラインを提案します。形状と外観の分離により、ネットワーク学習においてボリュームレンダリングとサーフェスレンダリングを組み合わせた2段階の学習戦略を設計することが可能になります。これにより、ジオメトリ推定に基づいてシャープな外観の詳細を学習するようネットワークに強制するパッチレベルの監視を適用できます。全体として、本手法はリアルタイムレンダリング機能を備えた表現豊かな全身アバターの自動構築を可能にし、新しい身体の動きや表情に対して動的なディテールを伴ったフォトリアルな画像を生成することができます。
大規模言語モデル(LLM)は、最終的な出力の前に段階的な推論を生成することで、多くのタスクで高いパフォーマンスを達成することができます。これはしばしば「連鎖的思考推論(CoT)」と呼ばれます。これらのCoT説明を、LLMがタスクを解決するためのプロセスと解釈したくなるかもしれません。しかし、私たちはCoT説明がモデルの予測の真の理由を体系的に誤って表現する可能性があることを発見しました。モデルの入力にバイアスをかける特徴を追加することで、CoT説明が大きく影響を受けることを実証しました。例えば、少数ショットプロンプトの多肢選択肢を並べ替えて、答えを常に「(A)」にするなどです。モデルはこれらのバイアスを説明の中で体系的に言及しません。モデルを誤った答えに誘導すると、彼らはしばしばその答えを支持するCoT説明を生成します。これにより、OpenAIのGPT-3.5やAnthropicのClaude 1.0を使用してBIG-Bench Hardの13のタスクをテストした場合、精度が最大36%低下します。社会的バイアスのタスクでは、モデルの説明はステレオタイプに沿った答えを正当化し、これらの社会的バイアスの影響に言及しません。私たちの調査結果は、CoT説明がもっともらしいが誤解を招く可能性があることを示しており、LLMの安全性を保証せずに私たちの信頼を高めるリスクがあります。CoTは説明可能性において有望ですが、私たちの結果は、説明の忠実性を評価し改善するためのターゲットを絞った取り組みの必要性を強調しています。
既存のNeural Radiance Fields(NeRF)手法は、反射物体の存在によってぼやけたまたは歪んだレンダリングが生じるという課題を抱えています。単一の放射場を計算する代わりに、我々は並列部分空間における特徴場のグループを用いてシーンを表現するマルチスペースニューラル放射場(MS-NeRF)を提案します。これにより、ニューラルネットワークが反射物体や屈折物体の存在をより良く理解できるようになります。我々のマルチスペーススキームは、既存のNeRF手法を強化するものであり、追加の空間出力を訓練および推論するために必要な計算オーバーヘッドはわずかです。我々は、NeRF、Mip-NeRF、Mip-NeRF 360という3つの代表的なNeRFベースのモデルを用いて、本手法の優位性と互換性を実証します。比較は、25の合成シーンと7の実写シーンからなる新たに構築されたデータセット上で行われ、いずれも複雑な反射と屈折を伴い、360度の視点を有しています。広範な実験により、本手法が鏡のような物体を通る複雑な光路に関して高品質なシーンをレンダリングする際に、既存の単一空間NeRF手法を大幅に上回ることが示されました。我々のコードとデータセットはhttps://zx-yin.github.io/msnerfで公開されます。
Transformerモデルは自然言語処理(NLP)やコンピュータビジョンの基盤となっています。近年、シーケンス長nの関数としての二次コストを削減するための様々な研究が行われていますが、超長いシーケンス(例えば16Kトークンを超えるもの)を効率的に扱うことは依然として困難です。例えば、本全体に基づいて質問に答えることや科学記事を要約するといったアプリケーションは非効率的か、あるいは実現不可能です。本論文では、Transformerモデルの複雑さをnに依存しないサイズrの表現に圧縮することで、nへの依存を大幅に削減することを提案します。具体的には、多くのタスクにおいて最終的な予測に最も関連するのは特殊なトークンの小さなサブセット(我々はこれをVIPトークンと呼ぶ)であるという事実を利用し、これらのVIPトークンの表現を近似する際の影響に基づいて入力シーケンスを選択的に圧縮するVIPトークン中心圧縮(Vcc)スキームを提案します。競合するベースラインと比較して、提案アルゴリズムは効率的であるだけでなく(4Kおよび16Kの長さでベースラインよりも3倍以上の効率向上を達成)、多数のタスクで競争力のあるまたはそれ以上の性能を達成します。さらに、我々のアルゴリズムは128Kトークン(またはそれ以上)にスケールアップ可能であり、一貫して精度向上を提供することを示します。
ELECTRAのジェネレータ-ディスクリミネータ事前学習フレームワークは、様々な下流タスクにおいて印象的な意味構築能力を達成しています。説得力のある性能にもかかわらず、ELECTRAは依然として単調な学習と不十分な相互作用という課題に直面しています。マスク言語モデリング(MLM)のみを備えたジェネレータは、ディスクリミネータの偏った学習とラベルの不均衡を引き起こし、学習効率を低下させます。また、ディスクリミネータからジェネレータへの明示的なフィードバックループがないため、これら2つのコンポーネント間の溝が生じ、コース学習を十分に活用できていません。本研究では、多視点コース学習(MCL)法を提案し、サンプル効率の良い事前学習のために多様な視点と角度を提供し、ジェネレータとディスクリミネータの関係を最大限に活用します。具体的には、MLMの内在的な欠点を緩和し、ラベルを多視点でバランスさせるために、3つの自己監督コースを設計しました。さらに、2つの自己修正コースを提案し、「修正ノートブック」を作成して二次監督を行うことで、2つのエンコーダ間の溝を埋めます。さらに、MCLの「綱引き」ダイナミクス問題を解決するために、コーススープの試行を行い、より強力な事前学習モデルを進化させました。実験結果は、我々の方法がELECTRAの平均性能をGLUEとSQuAD 2.0ベンチマークでそれぞれ2.8%と3.2%の絶対ポイントで大幅に向上させ、同じ設定下で最近の先進的なELECTRAスタイルのモデルを凌駕することを示しています。事前学習されたMCLモデルはhttps://huggingface.co/McmanusChen/MCL-baseで利用可能です。