翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は、文脈理解、コード生成、言語生成、データストーリーテリングなど、多くの分野やタスクにおいてその強力な能力を発揮してきた。これにより、多くのデータアナリストは、AIによって自身の仕事が置き換えられるのではないかという懸念を抱いている。この論争の的となる話題は、世間の注目を集めている。しかし、我々はまだ決定的な結論に至らない段階にあり、意見が分かれている。この動機から、本研究では「GPT-4は優れたデータアナリストか?」という研究課題を提起し、直接比較研究を行うことでこれを解明することを目指す。具体的には、GPT-4をデータアナリストと見なし、多様な分野のデータベースを用いてエンドツーエンドのデータ分析を実行する。我々は、GPT-4が実験を実施するためのプロンプトを慎重に設計することで、この問題に取り組むためのフレームワークを提案する。また、いくつかのタスク固有の評価指標を設計し、複数の専門的な人間のデータアナリストとGPT-4のパフォーマンスを体系的に比較する。実験結果は、GPT-4が人間と同等のパフォーマンスを達成できることを示している。さらに、GPT-4がデータアナリストを置き換えることができるという結論に至る前に、我々の結果について詳細な議論を提供し、今後の研究に光を当てる。
最近の実用環境における大規模言語モデル(LLM)の登場に伴い、事実的不整合を効果的に検出する方法を持つことは、誤情報の拡散を減らし、モデル出力への信頼を向上させるために極めて重要です。既存の事実的一貫性ベンチマークでテストを行ったところ、いくつかの大規模言語モデル(LLM)が、従来の非LLM手法と比較して、事実的不整合検出の分類ベンチマークで競争力のある性能を示すことがわかりました。しかし、より詳細な分析により、ほとんどのLLMがより複雑なタスクの定式化において失敗し、既存の評価ベンチマークの問題が明らかになり、評価精度に影響を与えていることが判明しました。これに対処するため、我々は不整合検出ベンチマーク作成の新しいプロトコルを提案し、それを10ドメインのベンチマーク「SummEdits」に実装しました。この新しいベンチマークは、サンプルあたりのコストが従来のベンチマークの20分の1であり、再現性が高く、アノテーター間一致率は約0.9と推定されています。ほとんどのLLMはSummEditsで苦戦し、性能はほぼランダムに近い結果を示しています。最高性能のモデルであるGPT-4でさえ、推定される人間の性能よりも8%低く、LLMが事実について推論し、不整合を検出する能力に依然としてギャップがあることが浮き彫りになりました。
オープンワールドサバイバルゲームは、マルチタスク、深い探索、目標の優先順位付けといった要件から、AIアルゴリズムにとって大きな課題を提起します。強化学習(RL)はゲームを解くために広く使われていますが、その高いサンプル複雑さが、CrafterやMinecraftのような複雑なオープンワールドゲームでの有効性を制限しています。本研究では、SPRINGという新しいアプローチを提案します。これは、ゲームのオリジナルの学術論文を読み、そこで得た知識を大規模言語モデル(LLM)を通じて推論し、ゲームをプレイするものです。LaTeXソースをゲームのコンテキストとして、エージェントの現在の観察を説明としてプロンプトに与えることで、SPRINGフレームワークは、ゲーム関連の質問をノードとし、依存関係をエッジとする有向非巡回グラフ(DAG)を構築します。DAGをトラバースし、各ノードに対してトポロジカル順序でLLMの応答を計算することで、環境で取るべき最適なアクションを特定します。最終ノードに対するLLMの回答は、直接環境アクションに変換されます。実験では、Crafterオープンワールド環境の設定下で、異なる形式のプロンプトによって誘発される「推論」の質を調査しました。実験結果は、一貫した思考の連鎖(chain-of-thought)をプロンプトとして与えられた場合、LLMが洗練された高レベルの軌道を完成させる大きな可能性を持っていることを示唆しています。定量的には、GPT-4を用いたSPRINGは、100万ステップ訓練されたすべての最先端のRLベースラインを、一切の訓練なしに上回りました。最後に、ゲームがLLMのテストベッドとしての可能性を示しました。
ニューラル機械翻訳(NMT)は機械翻訳(MT)における主要なアプローチであるが、NMTモデルの出力は、特に重要な設定下では、誤りを修正し品質を向上させるために翻訳後編集を必要とする。本研究では、大規模言語モデル(LLM)を用いた翻訳後編集タスクを形式化し、GPT-4を活用して複数の言語ペアにおけるNMT出力の自動後編集を探求する。結果として、GPT-4は翻訳後編集に熟達しており、ターゲット言語が英語でない場合でも有意義な編集を生成することが示された。特に、GPT-4ベースの後編集を用いることで、WMT-22の英語-中国語、英語-ドイツ語、中国語-英語、ドイツ語-英語の言語ペアにおいて、最先端のMT品質評価指標を用いた評価で、最先端の性能を達成した。
連鎖的思考プロンプト(chain-of-thought prompting)などの戦略は、入力例を中間ステップに分解することで、大規模言語モデル(LLM)の複雑な推論タスクにおける性能を向上させます。しかし、長い入力文書に対してこのような方法を適用し、推論を行う方法はまだ明確ではありません。特に、分解と各中間ステップの出力の両方が非自明な場合が多くあります。本研究では、長文書に対する推論を改善するためのプロンプトフレームワークであるPEARLを提案します。PEARLは、アクション抽出、計画策定、計画実行の3つの段階で構成されています。具体的には、長文書に関する質問が与えられると、PEARLはその質問を一連のアクション(例:要約、イベント検索、関係検索)に分解し、それらを文書上で実行して答えを得ます。PEARLの各段階は、最小限の人的入力を伴うゼロショットまたは少数ショットのプロンプト(本研究ではGPT-4を使用)によって実装されます。PEARLを、長い物語文書に対する複雑な推論を必要とするQuALITYデータセットの難易度の高いサブセットで評価しました。その結果、PEARLはゼロショットおよび連鎖的思考プロンプトを上回る性能を示し、アブレーション実験ではPEARLの各段階がその性能に不可欠であることが明らかになりました。全体として、PEARLはLLMを活用して長文書を推論するための第一歩となります。