マージンに書き込む:長い文脈のためのより良い推論パターンの取得Writing in the Margins: Better Inference Pattern for Long Context
Retrieval
本論文では、長い入力シーケンスの処理を最適化するために設計された大規模言語モデル用の新しい推論パターンであるWriting in the Margins(WiM)を紹介します。この手法は、セグメント単位の推論を実行するためにキー値キャッシュのチャンク化されたプリフィルを活用し、広範なコンテキストの効率的な処理と、モデルを特定のタスクに導く中間情報(「マージン」)の生成と分類を可能にします。この手法は、計算上のオーバーヘッドをわずかに増やすだけで、微調整を必要とせずに市販モデルの性能を著しく向上させます。具体的には、WiMは推論スキル(HotpotQA、MultiHop-RAG)の精度において平均7.5%の向上と、集約タスク(CWE)のF1スコアにおいて30.0%以上の向上を提供することを観察しています。さらに、提案されたパターンが、コンテキスト処理の進行状況に関するユーザーへの継続的な更新と、関連情報の最終応答への統合を的確に指摘する対話型検索設計にどのように適合するかを示しています。WiMの実装をHugging Face Transformersライブラリを使用して公開しており、以下のリンクから入手可能です:https://github.com/writer/writing-in-the-margins.