OLMoTrace: Rückverfolgung von Sprachmodell-Ausgaben zu Billionen von Trainings-Tokens

Zusammenfassung

Wir präsentieren OLMoTrace, das erste System, das die Ausgaben von Sprachmodellen in Echtzeit auf ihre vollständigen, mehrere Billionen Token umfassenden Trainingsdaten zurückverfolgt. OLMoTrace identifiziert und zeigt wortwörtliche Übereinstimmungen zwischen Segmenten der Sprachmodellausgaben und Dokumenten in den Trainingsdatenkorpora. Angetrieben durch eine erweiterte Version von infini-gram (Liu et al., 2024), liefert unser System die Rückverfolgungsergebnisse innerhalb weniger Sekunden. OLMoTrace kann Nutzern helfen, das Verhalten von Sprachmodellen durch die Linse ihrer Trainingsdaten zu verstehen. Wir demonstrieren, wie es zur Untersuchung von Faktenprüfung, Halluzinationen und der Kreativität von Sprachmodellen eingesetzt werden kann. OLMoTrace ist öffentlich zugänglich und vollständig Open-Source.

English

We present OLMoTrace, the first system that traces the outputs of language models back to their full, multi-trillion-token training data in real time. OLMoTrace finds and shows verbatim matches between segments of language model output and documents in the training text corpora. Powered by an extended version of infini-gram (Liu et al., 2024), our system returns tracing results within a few seconds. OLMoTrace can help users understand the behavior of language models through the lens of their training data. We showcase how it can be used to explore fact checking, hallucination, and the creativity of language models. OLMoTrace is publicly available and fully open-source.