OLMoTrace: 言語モデルの出力を数兆のトレーニングトークンに遡るトレースOLMoTrace: Tracing Language Model Outputs Back to Trillions of Training
Tokens
我々はOLMoTraceを発表します。これは、言語モデルの出力をその数兆トークンに及ぶトレーニングデータにリアルタイムで遡及する初のシステムです。OLMoTraceは、言語モデルの出力セグメントとトレーニングテキストコーパス内の文書との間の逐語的な一致を発見し表示します。拡張版infini-gram(Liu et al., 2024)を活用した本システムは、数秒以内にトレーシング結果を返します。OLMoTraceは、ユーザーがトレーニングデータを通じて言語モデルの挙動を理解するのに役立ちます。我々は、ファクトチェック、ハルシネーション、そして言語モデルの創造性を探るための使用方法を実演します。OLMoTraceは公開されており、完全なオープンソースです。