LongGenBench: 長文脈生成ベンチマークLongGenBench: Long-context Generation Benchmark
現在の長いコンテキストのベンチマークは主に検索ベースのテストに焦点を当てており、Large Language Models(LLMs)に特定の情報を広範な入力コンテキスト内で見つけさせる必要があります。例えば、針の穴を見つける(NIAH)ベンチマークがあります。長いコンテキスト生成とは、言語モデルが長いパッセージや文書全体にわたる、結合性があり文脈に即したテキストを生成する能力を指します。最近の研究では、NIAHや他の検索ベースの長いコンテキストのベンチマークで高いパフォーマンスを示していますが、長いコンテキスト生成能力を評価するためのベンチマークが著しく不足しています。このギャップを埋め、包括的な評価を提供するために、柔軟な設定でカスタマイズされた生成コンテキストの長さを可能にする合成ベンチマーク、LongGenBenchを紹介します。LongGenBenchは、従来のベンチマークを進化させ、質問の形式を再設計し、LLMsが一つの統一された長いコンテキストの回答をすることを必要とします。LongGenBenchを使用した包括的な評価の結果、次のことが観察されました:(1)APIアクセスおよびオープンソースモデルの両方が、長いコンテキスト生成シナリオで1.2%から47.1%の範囲でパフォーマンスの低下が見られます;(2)異なる系列のLLMsは、パフォーマンスの低下の傾向が異なり、APIアクセスモデルの中でGemini-1.5-Flashモデルが最も低下が少なく、オープンソースモデルの中でQwen2シリーズがLongGenBenchで最も低下が少ないことが観察されました。