翻訳付きの日次キュレーションされたAI研究論文
MLコミュニティは、言語モデル(LM)に対するプロンプト技術や、複雑なタスクを解決するためのパイプライン構築技術を急速に探求しています。しかし、既存のLMパイプラインは通常、試行錯誤によって発見された長い文字列である「プロンプトテンプレート」をハードコーディングして実装されています。LMパイプラインの開発と最適化をより体系的なアプローチで進めるため、私たちはDSPyを導入します。DSPyは、LMパイプラインをテキスト変換グラフとして抽象化するプログラミングモデルであり、命令型の計算グラフにおいてLMを宣言型モジュールを通じて呼び出します。DSPyモジュールはパラメータ化されており、プロンプト、ファインチューニング、拡張、推論技術の組み合わせを適用する方法を(デモンストレーションを作成・収集することで)学習できます。私たちは、任意のDSPyパイプラインを最適化して所与の指標を最大化するコンパイラを設計しました。2つのケーススタディを行い、簡潔なDSPyプログラムが、数学文章題の推論、マルチホップ検索、複雑な質問への回答、エージェントループの制御といった高度なLMパイプラインを表現・最適化できることを示しました。コンパイルから数分以内に、わずか数行のDSPyコードにより、GPT-3.5とllama2-13b-chatが自己ブートストラップするパイプラインを構築し、標準的なFew-shotプロンプティング(一般的にそれぞれ25%以上、65%以上)や、専門家が作成したデモンストレーションを用いたパイプライン(それぞれ最大5-46%、16-40%)を上回りました。さらに、770MパラメータのT5やllama2-13b-chatといったオープンで比較的小さなLMにコンパイルされたDSPyプログラムは、プロプライエタリなGPT-3.5向けに専門家が作成したプロンプトチェーンに依存するアプローチと競争力があります。DSPyはhttps://github.com/stanfordnlp/dspyで利用可能です。
「思考は行動のためである」。人間は観察から他者の心的状態を推論する能力(心の理論、Theory-of-Mind: ToM)を持ち、その推論に基づいて実践的に行動することができる。既存の質問応答ベンチマークであるToMiは、物語中の登場人物の信念についてモデルに推論させる質問を投げかけるが、モデルがその推論を行動に結びつけられるかどうかは検証しない。本論文では、大規模言語モデル(LLM)のための新しい評価パラダイム「行動のための思考(Thinking for Doing: T4D)」を提案する。T4Dでは、モデルが他者の心的状態に関する推論を社会的シナリオにおける行動に結びつける能力が求められる。T4Dでの実験により、GPT-4やPaLM 2などのLLMは物語中の登場人物の信念を追跡する能力は高いものの、この能力を戦略的な行動に変換する点では苦戦することが明らかになった。分析の結果、LLMの核心的な課題は、ToMiのように明示的に質問されない限り、心的状態に関する暗黙の推論を特定し、T4Dで正しい行動を選択するための推論を行う点にあることがわかった。このギャップを埋めるため、我々はゼロショットプロンプティングフレームワーク「予見と反映(Foresee and Reflect: FaR)」を導入した。FaRは、LLMが将来の課題を予見し、潜在的な行動について推論することを促す推論構造を提供する。FaRにより、GPT-4のT4Dでの性能は50%から71%に向上し、Chain-of-ThoughtやSelf-Askなどの他のプロンプティング手法を上回った。さらに、FaRは、ToM推論を必要とする多様な分布外の物語構造やシナリオにも一般化され、数ショットのインコンテキスト学習を含む他の手法を一貫して上回る結果を示した。
GPT-4のような大規模言語モデル(LLM)は、さまざまなタスクで顕著な性能を発揮していますが、この高い性能はしばしば有料APIサービスの高額な利用コストを伴います。本論文では、特に推論(例:数学的、因果的)タスクを実行する際に、LLMの利用コストを削減するためのLLMカスケードの構築を研究する動機を持っています。私たちのカスケードパイプラインは、より単純な質問はより弱いがより手頃なLLMで対応でき、一方で難しい質問のみがより強力で高価なLLMを必要とするという直感に従っています。この意思決定を実現するために、より弱いLLMの「回答一貫性」を質問の難易度の信号として考慮し、回答サンプリングと一貫性チェックのためのいくつかの方法を提案します。これには、2つの思考表現(例:Chain-of-ThoughtとProgram-of-Thought)の混合を活用する方法も含まれます。GPT-3.5-turboとGPT-4をそれぞれ弱いLLMと強いLLMとして、6つの推論ベンチマークデータセットでの実験を通じて、提案したLLMカスケードが、強いLLMのみを使用した場合と同等の性能を達成しつつ、そのコストのわずか40%しか必要としないことを実証します。
今日、ユーザーは大規模言語モデル(LLM)をアシスタントとして、外部知識を必要とするクエリに答えてもらうよう求めています。特定の都市の天気、株価、さらには近隣の特定の場所について尋ねることもあります。これらのクエリでは、LLMが外部APIを呼び出すコードを生成してユーザーの質問に答える必要がありますが、LLMが最初の試行で正しいコードを生成することは稀で、実行結果に基づいてコードを反復的に改良する必要があります。さらに、高頻度のクエリをサポートするためにLLMアシスタントを使用すると、コストがかかることがあります。本研究では、コード駆動型のクエリに対して、より経済的かつ正確に答えることを可能にするフレームワーク「EcoAssistant」を提案します。EcoAssistantは3つのコンポーネントで構成されています。まず、LLMアシスタントが自動コード実行器と対話し、実行結果に基づいてコードを反復的に改良したり、答えを生成したりできるようにします。次に、LLMアシスタントの階層を使用し、より弱くて安価なLLMでクエリに答えようと試み、それでも解決できない場合にのみ、より強力で高価なLLMに切り替えます。最後に、過去の成功したクエリから解決策を取得し、後続のクエリを支援するための文脈内デモンストレーションとして使用します。実証的に、EcoAssistantは経済性と正確性において明確な利点を提供し、GPT-4の成功率を10ポイント上回り、GPT-4のコストの50%未満で達成できることを示しています。