翻訳付きの日次キュレーションされたAI研究論文
近年、強力な独自の大規模言語モデル(LLM)(例:GPT-4)を長文応答の評価者として使用することが事実上の標準となっている。しかし、大規模な評価タスクや特定の基準(例:子供向けの可読性)を考慮する実務家にとって、独自のLLMを評価者として使用することは、クローズドソースの性質、制御されないバージョン管理、および高額なコストのために信頼性が低い。本研究では、適切な参照資料(参照回答、評価基準)が提供された場合にGPT-4の評価能力に匹敵する完全なオープンソースのLLMであるPrometheusを提案する。まず、1,000の詳細な評価基準、20,000の指示、およびGPT-4によって生成された100,000の応答と言語フィードバックからなる新しいデータセットであるFeedback Collectionを構築する。Feedback Collectionを使用して、ユーザーが提供するカスタマイズされた評価基準に基づいて任意の長文テキストを評価できる13Bの評価者LLMであるPrometheusを訓練する。実験結果は、45のカスタマイズされた評価基準で評価した場合、Prometheusが人間の評価者とのピアソン相関0.897を記録し、GPT-4(0.882)に匹敵し、ChatGPT(0.392)を大きく上回ることを示している。さらに、4つのベンチマーク(MT Bench、Vicuna Bench、Feedback Bench、Flask Eval)で1,222のカスタマイズされた評価基準を用いてGPT-4との相関を測定した結果、同様の傾向が確認され、Prometheusの評価者LLMとしての能力が裏付けられた。最後に、Prometheusは、人間の選好データセットで明示的に訓練されたオープンソースの報酬モデルと比較して、2つの人間の選好ベンチマーク(HHH Alignment & MT Bench Human Judgment)で最高の精度を達成し、普遍的な報酬モデルとしての可能性を示している。我々は、コード、データセット、およびモデルをhttps://github.com/kaistAI/Prometheusでオープンソースとして公開している。
Plan-and-Writeは、長編ナラティブテキスト生成における一般的な階層的アプローチであり、まずナラティブの執筆を導くためのプランを作成します。このアプローチに従い、いくつかの研究では大規模言語モデルに単純にプロンプトを与えてプランニングを行っていますが、しばしば最適ではない結果が得られます。本論文では、長編ナラティブテキスト生成のための新しいフレームワークであるEvaluation-guided Iterative Plan Extraction(EIPE-text)を提案します。このフレームワークは、ナラティブのコーパスからプランを抽出し、抽出されたプランを利用してより優れたプランナーを構築します。EIPE-textは、プラン抽出、学習、推論の3つの段階から成ります。プラン抽出段階では、ナラティブコーパスから反復的にプランを抽出・改善し、プランコーパスを構築します。我々は、プランを自動的に評価し、反復的な改善を導くための詳細なプラン改良指示を生成するための質問応答(QA)ベースの評価メカニズムを提案します。学習段階では、プランコーパスを用いたファインチューニングまたはプランコーパス内の例を用いたインコンテキスト学習によって、より優れたプランナーを構築します。最後に、階層的アプローチを活用して長編ナラティブを生成します。我々は、EIPE-textの有効性を小説とストーリーテリングの領域で評価します。GPT-4ベースの評価と人間による評価の両方において、我々の手法がより一貫性があり関連性の高い長編ナラティブを生成できることが示されています。我々のコードは将来的に公開される予定です。
視覚と言語を用いたナビゲーションにおいて、言語を知覚的表現として活用する方法を探求します。本手法では、既存の視覚システム(画像キャプショニングと物体検出)を利用して、エージェントのエゴセントリックなパノラマ視点を各タイムステップで自然言語記述に変換します。その後、事前学習済み言語モデルをファインチューニングし、現在の視点と軌跡履歴に基づいてナビゲーション指示を最も適切に満たす行動を選択します。標準的な設定では、事前学習済み言語モデルを事前学習済み視覚モデルからの連続的な視覚的特徴と直接連携させるのに対し、本手法では(離散的な)言語を知覚的表現として使用します。R2R視覚言語ナビゲーションベンチマークにおいて、言語ベースナビゲーション(LangNav)アプローチの2つのユースケースを検討します:大規模言語モデル(GPT-4)からのプロンプトを用いて合成軌跡を生成し、より小規模な言語モデルをファインチューニングするケースと、シミュレーション環境(ALFRED)で学習したポリシーを実世界環境(R2R)に転移するシミュレーションtoリアル転移のケースです。本手法は、視覚的特徴に依存する強力なベースラインを、少数のゴールド軌跡(10-100)しか利用できない設定において改善することが確認され、ナビゲーションタスクにおける言語を知覚的表現として使用する可能性を示しています。