OLMoTrace:將語言模型輸出追溯至數萬億訓練詞元OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training
Tokens
我們推出OLMoTrace,這是首個能夠即時追蹤語言模型輸出至其完整、多兆詞元訓練數據的系統。OLMoTrace能夠發現並展示語言模型輸出片段與訓練文本語料庫中文件之間的字面匹配。借助於infini-gram(Liu等人,2024)的擴展版本,我們的系統能在幾秒內返回追蹤結果。OLMoTrace有助於用戶透過其訓練數據的視角來理解語言模型的行為。我們展示了如何利用它來探索事實核查、幻覺以及語言模型的創造性。OLMoTrace已公開並完全開源。