ChatPaper.aiChatPaper

OLMoTrace: Rückverfolgung von Sprachmodell-Ausgaben zu Billionen von Trainings-Tokens

OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

April 9, 2025
Autoren: Jiacheng Liu, Taylor Blanton, Yanai Elazar, Sewon Min, YenSung Chen, Arnavi Chheda-Kothary, Huy Tran, Byron Bischoff, Eric Marsh, Michael Schmitz, Cassidy Trier, Aaron Sarnat, Jenna James, Jon Borchardt, Bailey Kuehl, Evie Cheng, Karen Farley, Sruthi Sreeram, Taira Anderson, David Albright, Carissa Schoenick, Luca Soldaini, Dirk Groeneveld, Rock Yuren Pang, Pang Wei Koh, Noah A. Smith, Sophie Lebrecht, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi, Jesse Dodge
cs.AI

Zusammenfassung

Wir präsentieren OLMoTrace, das erste System, das die Ausgaben von Sprachmodellen in Echtzeit auf ihre vollständigen, mehrere Billionen Token umfassenden Trainingsdaten zurückverfolgt. OLMoTrace identifiziert und zeigt wortwörtliche Übereinstimmungen zwischen Segmenten der Sprachmodellausgaben und Dokumenten in den Trainingsdatenkorpora. Angetrieben durch eine erweiterte Version von infini-gram (Liu et al., 2024), liefert unser System die Rückverfolgungsergebnisse innerhalb weniger Sekunden. OLMoTrace kann Nutzern helfen, das Verhalten von Sprachmodellen durch die Linse ihrer Trainingsdaten zu verstehen. Wir demonstrieren, wie es zur Untersuchung von Faktenprüfung, Halluzinationen und der Kreativität von Sprachmodellen eingesetzt werden kann. OLMoTrace ist öffentlich zugänglich und vollständig Open-Source.
English
We present OLMoTrace, the first system that traces the outputs of language models back to their full, multi-trillion-token training data in real time. OLMoTrace finds and shows verbatim matches between segments of language model output and documents in the training text corpora. Powered by an extended version of infini-gram (Liu et al., 2024), our system returns tracing results within a few seconds. OLMoTrace can help users understand the behavior of language models through the lens of their training data. We showcase how it can be used to explore fact checking, hallucination, and the creativity of language models. OLMoTrace is publicly available and fully open-source.

Summary

AI-Generated Summary

PDF733April 10, 2025