OLMoTrace:将语言模型输出追溯至数万亿训练标记OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training
Tokens
我们推出OLMoTrace,这是首个能够实时追踪语言模型输出至其完整、数万亿token训练数据的系统。OLMoTrace能够发现并展示语言模型输出片段与训练文本语料库中文献之间的逐字匹配。依托于infini-gram(Liu等人,2024)的扩展版本,我们的系统能在数秒内返回追踪结果。OLMoTrace有助于用户通过训练数据的视角理解语言模型的行为。我们展示了如何利用它来探索事实核查、幻觉现象以及语言模型的创造力。OLMoTrace现已公开,且完全开源。