翻訳付きの日次キュレーションされたAI研究論文
オープンソースの大規模言語モデル(LLMs)とその派生モデル(例:LLaMAやVicuna)の進歩にもかかわらず、外部ツール(API)を使用するための人間の指示に従うといった高度なタスクを実行する能力は依然として大きく制限されています。これは、現在の指示チューニングが基本的な言語タスクに焦点を当てており、ツール使用の領域に重点を置いていないためです。これは、ChatGPTのような最先端(SOTA)のLLMsとは対照的です。これらのモデルは優れたツール使用能力を実証していますが、残念ながらクローズドソースです。オープンソースのLLMs内でツール使用能力を促進するために、我々はToolLLMを紹介します。これは、データ構築、モデルトレーニング、評価を包括する一般的なツール使用フレームワークです。まず、ChatGPTを使用して自動的に作成されたツール使用のための指示チューニングデータセットであるToolBenchを提示します。具体的には、RapidAPI Hubから49カテゴリにわたる16,464の実世界のRESTful APIを収集し、ChatGPTにこれらのAPIを含む多様な人間の指示を生成させ、単一ツールと複数ツールのシナリオをカバーします。最後に、ChatGPTを使用して各指示に対する有効な解決パス(API呼び出しの連鎖)を検索します。検索プロセスをより効率的にするために、深さ優先探索ベースの決定木(DFSDT)を開発し、LLMsが複数の推論トレースを評価し、検索空間を拡張できるようにします。DFSDTがLLMsの計画と推論能力を大幅に向上させることを示します。効率的なツール使用評価のために、自動評価ツールであるToolEvalを開発します。ToolBenchでLLaMAをファインチューニングし、ToolLLaMAを取得します。ToolEvalの評価により、ToolLLaMAが複雑な指示を実行し、未見のAPIに一般化する顕著な能力を示し、ChatGPTと同等の性能を発揮することが明らかになりました。パイプラインをより実用的にするために、各指示に適切なAPIを推薦するニューラルAPIリトリーバーを考案し、手動でのAPI選択の必要性をなくしました。
本研究は、大規模言語モデル(LLMs)のエンドツーエンド生成遅延を低減することを目的としている。生成遅延が高い主な原因の一つは、ほぼすべての最先端LLMsが採用している逐次デコードアプローチである。本研究では、人間の思考および執筆プロセスに着想を得て、「Skeleton-of-Thought」(SoT)を提案する。SoTは、LLMsにまず回答の骨組みを生成させ、その後、並列API呼び出しまたはバッチデコードを行い、各骨組みポイントの内容を並列に完成させるものである。SoTは、速度の大幅な向上(11種類の異なるLLMsにおいて最大2.39倍)を提供するだけでなく、多様性と関連性の観点から、いくつかの質問カテゴリにおいて回答品質の向上も期待できる。SoTは、効率化のためのデータ中心最適化の初期試みであり、LLMsに人間のように思考させることで回答品質を向上させる可能性を示唆している。
人間のフィードバックによる強化学習(RLHF)は、AIシステムを人間の目標に沿わせるための技術である。RLHFは、最先端の大規模言語モデル(LLM)をファインチューニングするための中心的な手法として登場した。このような普及にもかかわらず、その欠点を体系化する公的な研究は比較的少ない。本論文では、(1) RLHFおよび関連手法の未解決問題と根本的な限界を調査し、(2) RLHFを理解し、改善し、補完するための技術を概観し、(3) RLHFシステムに対する社会的監視を向上させるための監査と開示の基準を提案する。我々の研究は、RLHFの限界を強調し、より安全なAIシステムの開発に向けた多面的なアプローチの重要性を浮き彫りにする。
医学はその性質上、様々なモダリティにわたる情報の統合を必要とする多面的な領域です。医療生成型視覚言語モデル(VLMs)はこの方向への第一歩を踏み出し、多くのエキサイティングな臨床応用を約束します。しかし、既存のモデルは通常、大規模な下流データセットで微調整する必要があり、多くの医療応用ではデータが不足しているため、リアルタイムで少数の例から学習できるモデルが必要とされるという重大な制約があります。ここでは、医療領域に適応したマルチモーダル少数ショット学習モデルであるMed-Flamingoを提案します。OpenFlamingo-9Bを基盤として、出版物や教科書からのペアおよびインターリーブされた医療画像テキストデータで事前学習を継続します。Med-Flamingoは、少数ショット生成型医療視覚質問応答(VQA)能力を解き放ち、これらをいくつかのデータセットで評価します。これには、視覚的なUSMLEスタイルの問題からなる新たで挑戦的なオープンエンドVQAデータセットも含まれます。さらに、生成型医療VQAにおける初の人間評価を実施し、医師がインタラクティブアプリで問題とブラインド生成をレビューします。Med-Flamingoは、生成型医療VQAにおける臨床医の評価で最大20%の性能向上をもたらし、根拠生成などのマルチモーダル医療少数ショット適応を初めて可能にします。私たちは、モデル、コード、および評価アプリをhttps://github.com/snap-stanford/med-flamingoで公開します。
視覚と言語の結合空間において、テキスト特徴(例えば「犬の写真」から得られるもの)は、関連する画像特徴(例えば犬の写真から得られるもの)を効果的に表現することができる。これに着想を得て、我々はPromptStylerを提案する。これは、ソースフリーのドメイン一般化に対処するため、画像を使用せずにプロンプトを通じて多様なスタイルを合成することで、結合空間における様々な分布シフトをシミュレートするものである。本手法では、学習可能なスタイル単語ベクトルを用いて、疑似単語S*に対する多様なスタイル特徴(「S*スタイルの」から得られるもの)を生成する方法を学習する。学習されたスタイルがコンテンツ情報を歪めないようにするため、スタイル-コンテンツ特徴(「S*スタイルの[クラス]」から得られるもの)が、結合視覚-言語空間内で対応するコンテンツ特徴(「[クラス]」から得られるもの)の近くに位置するように強制する。スタイル単語ベクトルを学習した後、合成されたスタイル-コンテンツ特徴を用いて線形分類器を訓練する。PromptStylerは、PACS、VLCS、OfficeHome、およびDomainNetにおいて、画像を一切必要とせず、単一のGPUを使用してわずか約30分の訓練時間で、最先端の性能を達成する。
自己回帰型言語モデルから生成されたテキストに、特定の最大生成予算までのテキスト分布を変更することなく、摂動に対して頑健な透かしを埋め込む手法を提案します。本手法では、ランダム化された透かしキーを用いて計算された乱数列を言語モデルのサンプルにマッピングすることで、透かし入りテキストを生成します。透かし入りテキストを検出するためには、キーを知っている任意の当事者がテキストを乱数列にアライメントすることが可能です。本透かし手法を、逆変換サンプリングと指数最小サンプリングという2つのサンプリング方式で実装します。これらの透かしを3つの言語モデル(OPT-1.3B、LLaMA-7B、Alpaca-7B)に適用し、その統計的検出力と様々な言い換え攻撃に対する頑健性を実験的に検証します。特に、OPT-1.3BとLLaMA-7Bモデルでは、トークンの40~50%をランダムな編集(置換、挿入、削除)によって改変した後でも、35トークンから透かし入りテキストを信頼性高く検出できることを確認しました(p ≤ 0.01)。Alpaca-7Bモデルについては、典型的なユーザー指示に対する応答の透かしの実現可能性に関するケーススタディを実施しました。応答のエントロピーが低いため、検出はより困難であり、中央値が約100トークンの応答のうち約25%がp ≤ 0.01で検出可能で、また、実装した特定の自動言い換え攻撃に対する頑健性も低いことがわかりました。
命令チューニングは、大規模言語モデルが人間の指示に従う能力を向上させる有望なアプローチとして注目を集めています。トレーニングデータにおける命令の多様性と数を増やすことで、一般化性能が一貫して向上することが示されており、これにより、さまざまな命令を収集し、既存の命令チューニングデータセットをより大規模なコレクションに統合する取り組みが最近活発化しています。しかし、異なるユーザーは独自の命令表現方法を持っており、異なるデータセット間では命令のスタイルやフォーマットにばらつきが存在する、つまりフォーマットの不整合が生じることがよくあります。本研究では、フォーマットの不整合が命令チューニングの性能にどのような影響を与えるかを調査します。我々は「統一命令チューニング」(Unified Instruction Tuning, UIT)と呼ばれるフレームワークを提案し、異なる命令チューニングデータセット間での自動フォーマット変換のためにOpenAI APIを利用します。UITが未見の命令に対する一般化性能を成功裏に向上させることを示し、命令チューニングにおけるフォーマットの一貫性の重要性を強調します。UITフレームワークをより実用的にするため、自動フォーマット変換のノイズを低減する新しいパープレキシティベースのノイズ除去手法をさらに提案します。また、OpenAI APIと同等のフォーマット変換能力を達成するより小規模なオフラインモデルをトレーニングし、実践的なコスト削減を図ります。
暗黙的なニューラル表現、特にニューラルラジアンスフィールド(NeRF)の普及に伴い、再構築されたシーンの後処理や3Dコンテンツ作成などのタスクにおいて、暗黙的な3Dモデルを操作するための編集手法が急務となっています。これまでの研究では、NeRFの編集をさまざまな視点から探求してきましたが、編集の柔軟性、品質、速度に制約があり、直接的な編集応答や即時プレビューを提供することができませんでした。重要な課題は、編集指示を直接反映し、即座に更新できる局所的に編集可能なニューラル表現を考案することです。このギャップを埋めるため、我々はSeal-3Dと呼ばれる新しいインタラクティブ編集手法とシステムを提案します。Seal-3Dは、ユーザーがNeRFモデルをピクセルレベルで自由に編集し、幅広いNeRF類似のバックボーンを使用して編集効果を即座にプレビューすることを可能にします。この効果を実現するために、編集指示をNeRFモデルの元の空間にマッピングするプロキシ関数と、局所的な事前学習とグローバルな微調整を組み合わせた教師-生徒トレーニング戦略を提案しました。NeRF編集システムを構築し、さまざまな編集タイプを展示しています。我々のシステムは、約1秒のインタラクティブ速度で説得力のある編集効果を達成できます。