LongRoPE: LLMのコンテキストウィンドウを200万トークン以上に拡張LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens
大規模なコンテキストウィンドウは、大規模言語モデル(LLM)において望ましい特徴である。しかし、高額なファインチューニングコスト、長文テキストの不足、および新しいトークン位置によって導入される破滅的な値のため、現在の拡張コンテキストウィンドウは約128kトークンに制限されている。本論文では、初めて事前学習済みLLMのコンテキストウィンドウを2048kトークンに拡張するLongRoPEを紹介する。これは、256kのトレーニング長において最大1kのファインチューニングステップのみで達成され、元の短いコンテキストウィンドウでの性能を維持する。これは、以下の3つの主要な革新によって実現されている:(i)効率的な探索を通じて位置補間における2つの不均一性を特定し、活用することで、ファインチューニングのためのより良い初期化を提供し、非ファインチューニングシナリオでの8倍の拡張を可能にする;(ii)256k長のLLMを最初にファインチューニングし、その後ファインチューニングされた拡張LLMに対して2回目の位置補間を行い、2048kのコンテキストウィンドウを達成する漸進的拡張戦略を導入する;(iii)8k長でLongRoPEを再調整し、短いコンテキストウィンドウの性能を回復する。LLaMA2とMistralを用いた様々なタスクでの広範な実験により、本手法の有効性が実証されている。LongRoPEによって拡張されたモデルは、位置埋め込みにわずかな変更を加えるだけで元のアーキテクチャを保持し、既存の最適化の大部分を再利用できる。