翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)をオープンエンドなシナリオで評価することは、既存のベンチマークやメトリクスでは包括的に測定できないため、困難な課題です。この問題に対処するため、我々はLLMをスケーラブルな審判(JudgeLM)としてファインチューニングし、オープンエンドなベンチマークで効率的かつ効果的にLLMを評価することを提案します。まず、高性能な審判をファインチューニングするための包括的で大規模かつ高品質なデータセットを提案します。このデータセットには、タスクのシード、LLMが生成した回答、およびGPT-4が生成した判定が含まれています。また、審判を評価するための新しいベンチマークも提案します。我々は7B、13B、33Bパラメータの異なるスケールでJudgeLMをトレーニングし、その能力と挙動を体系的に分析します。次に、LLMを審判としてファインチューニングする際の主要なバイアスを分析し、それらを位置バイアス、知識バイアス、フォーマットバイアスとして考慮します。これらの問題に対処するため、JudgeLMはスワップ拡張、リファレンスサポート、リファレンスドロップなどの技術を導入し、審判の性能を明確に向上させます。JudgeLMは、既存のPandaLMベンチマークと我々が提案した新しいベンチマークの両方で、最先端の審判性能を達成します。我々のJudgeLMは効率的であり、JudgeLM-7Bは8つのA100 GPUを使用して5Kサンプルを判定するのにわずか3分しかかかりません。JudgeLMは教師審判との高い一致率を達成し、90%を超える一致率を実現し、人間同士の一致率さえも上回ります。また、JudgeLMは単一回答、マルチモーダルモデル、複数回答、およびマルチターンチャットの審判としての拡張能力も示しています。
本論文では、テキスト条件付きニューラルラジアンスフィールド(NeRF)を単一のフォワードパスと(オプションで)微調整によって生成する手法であるHyperFieldsを提案する。本手法の鍵となる要素は以下の通りである:(i) テキストトークンの埋め込みからNeRFの空間への滑らかなマッピングを学習する動的ハイパーネットワーク、(ii) 個々のNeRFにエンコードされたシーンを一つの動的ハイパーネットワークに蒸留するNeRF蒸留トレーニング。これらの技術により、単一のネットワークが100以上のユニークなシーンに適合することが可能となる。さらに、HyperFieldsがテキストとNeRFの間のより一般的なマッピングを学習し、その結果、分布内および分布外の新しいシーンをゼロショットまたは数回の微調整ステップで予測できることを示す。HyperFieldsの微調整は、学習された一般的なマッピングのおかげで収束が加速され、既存のニューラル最適化ベースの手法よりも5~10倍速く新しいシーンを合成することが可能である。アブレーション実験により、動的アーキテクチャとNeRF蒸留の両方がHyperFieldsの表現力にとって重要であることが示された。
我々は、制御されたデコーディング(Controlled Decoding, CD)という新しいオフポリシー強化学習手法を提案する。これは、言語モデルからの自己回帰的生成を高報酬の結果に向けて制御するものである。CDは、報酬のための価値関数(我々はこれをプレフィックススコアラーと呼ぶ)を通じて、オフポリシー強化学習問題を解決する。このプレフィックススコアラーは、推論時に生成を高報酬の結果に向けて誘導するために使用される。我々は、プレフィックススコアラーが(おそらく)オフポリシーのデータで訓練され、部分的にデコードされた応答からデコーディングを続けた場合の期待報酬を予測できることを示す。CDがReddit会話コーパスにおける制御メカニズムとして有効であることを実験的に実証する。また、CDの設計のモジュール性により、複数の報酬を制御することが可能であり、追加の複雑さなしに多目的強化学習問題を効果的に解決できることを示す。最後に、CDを推論時に新しいブロック単位の方法で適用できることを示し、これにより、人気のあるbest-of-K戦略とトークンレベルの強化学習の間のギャップを埋める。これにより、CDは言語モデルのアラインメントのための有望なアプローチとなる。
数百億のパラメータを持つ大規模言語モデル(LLM)は、新たなAIアプリケーションの波を引き起こしています。しかし、推論時の計算コストが高いという課題があります。スパース性はこのコストを削減する自然なアプローチですが、既存の手法では高コストな再学習が必要であったり、LLMの文脈内学習能力を犠牲にしたり、現代のハードウェア上で実時間の高速化を実現できなかったりします。我々は、特定の入力に対して密なモデルとほぼ同じ出力を生成する、入力依存の小さなアテンションヘッドとMLPパラメータの集合である「文脈的スパース性」がこれらの課題を解決できると仮説を立てました。我々は、文脈的スパース性が存在し、それを正確に予測可能であり、LLMの品質や文脈内学習能力を損なうことなく、実時間でLLM推論を高速化するために活用できることを示します。これらの知見に基づき、各層への入力に応じて文脈的スパース性をオンザフライで予測する低コストアルゴリズムと、非同期かつハードウェアを意識した実装によりLLM推論を高速化するシステム「DejaVu」を提案します。DejaVuが、最先端のFasterTransformerと比較してOPT-175Bの推論遅延を2倍以上、広く使用されているHugging Faceの実装と比較して6倍以上削減できることを検証しました。モデルの品質を損なうことなく、これらの高速化を実現しています。コードはhttps://github.com/FMInference/DejaVuで公開されています。