ByYichen He, Guanhua Huang, Peiyuan Feng, Yuan Lin, Yuchen Zhang, Hang Li, Weinan E
52
10
私たちは、大規模な言語モデルによって強化された高度な論文検索エージェントPaSaを紹介します。PaSaは、検索ツールの起動、論文の読み込み、関連参照の選択など、一連の決定を自律的に行い、複雑な学術的クエリに対して包括的かつ正確な結果を得ることができます。私たちは、合成データセットAutoScholarQueryを用いてPaSaを強化学習によって最適化しました。このデータセットには、トップティアのAI学会出版物から収集された35,000件の細かく粒状な学術クエリと対応する論文が含まれています。さらに、より現実的なシナリオでPaSaのパフォーマンスを評価するために、実世界の学術クエリを収集したベンチマークであるRealScholarQueryを開発しました。合成データにトレーニングされているにもかかわらず、PaSaは、Google、Google Scholar、Google with GPT-4(言い換えクエリ用)、chatGPT(検索可能なGPT-4o)、GPT-o1、およびPaSa-GPT-4o(GPT-4oをプロンプトして実装されたPaSa)を含む既存のベースラインを大幅に上回ります。特に、PaSa-7Bは、最高のGoogleベースラインであるGoogle with GPT-4oをrecall@20で37.78%、recall@50で39.90%上回ります。また、recallでPaSa-GPT-4oを30.36%、precisionで4.25%上回ります。モデル、データセット、コードは、https://github.com/bytedance/pasa で入手可能です。
ByTairan Fu, Javier Conde, Gonzalo Martínez, María Grandury, Pedro Reviriego
33
2
LLM(Large Language Models)を評価するための最も広く使用されている方法の1つは、Multiple Choice Question(MCQ)テストです。MCQのベンチマークは、結果を自動的に処理できるため、ほぼどんなトピックに対しても規模でLLMの知識をテストすることができます。LLMが答えるのを支援するために、プロンプトにはフューショットと呼ばれるいくつかの例が含まれることがあります。さらに、LLMには、選択したオプションで直接問題に答えるか、まず理由を述べてから選択した答えを提供するよう求めることもできます。これは推論の連鎖として知られています。選択した答えが正しいかどうかを確認するだけでなく、評価では、LLMがその回答に対する信頼度の指標として、その応答のLLMによる推定確率を調べることができます。本論文では、LLMが回答に対する自信度が、モデルに直接回答するか理由を提供してから回答するかに依存するかを調査しています。7つの異なるモデルで幅広いトピックの質問の評価結果は、LLMが回答前に理由を提供すると、回答に対してより自信を持つことを示しています。これは選択した回答が正しいかどうかに関わらず起こります。私たちの仮説は、この行動が、LLMが入力質問と選択した理由を支持する推論に基づいて回答を予測することによって、選択した回答の確率を変更する推論に起因していると考えています。したがって、LLMの推定確率には理解すべき固有の制限があるようであり、評価手順でそれらを使用するためには理解する必要があります。興味深いことに、同じ行動が人間でも観察されており、回答を説明することで正解への自信が高まることが報告されています。