ChatPaper.aiChatPaper

OLMoTrace: Rastreando las Salidas de Modelos de Lenguaje hasta Billones de Tokens de Entrenamiento

OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

April 9, 2025
Autores: Jiacheng Liu, Taylor Blanton, Yanai Elazar, Sewon Min, YenSung Chen, Arnavi Chheda-Kothary, Huy Tran, Byron Bischoff, Eric Marsh, Michael Schmitz, Cassidy Trier, Aaron Sarnat, Jenna James, Jon Borchardt, Bailey Kuehl, Evie Cheng, Karen Farley, Sruthi Sreeram, Taira Anderson, David Albright, Carissa Schoenick, Luca Soldaini, Dirk Groeneveld, Rock Yuren Pang, Pang Wei Koh, Noah A. Smith, Sophie Lebrecht, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi, Jesse Dodge
cs.AI

Resumen

Presentamos OLMoTrace, el primer sistema que rastrea las salidas de los modelos de lenguaje hasta sus datos de entrenamiento completos, compuestos por billones de tokens, en tiempo real. OLMoTrace encuentra y muestra coincidencias textuales entre segmentos de la salida del modelo de lenguaje y documentos en los corpus de texto de entrenamiento. Impulsado por una versión extendida de infini-gram (Liu et al., 2024), nuestro sistema devuelve resultados de rastreo en cuestión de segundos. OLMoTrace puede ayudar a los usuarios a comprender el comportamiento de los modelos de lenguaje a través del lente de sus datos de entrenamiento. Demostramos cómo puede utilizarse para explorar la verificación de hechos, las alucinaciones y la creatividad de los modelos de lenguaje. OLMoTrace está disponible públicamente y es completamente de código abierto.
English
We present OLMoTrace, the first system that traces the outputs of language models back to their full, multi-trillion-token training data in real time. OLMoTrace finds and shows verbatim matches between segments of language model output and documents in the training text corpora. Powered by an extended version of infini-gram (Liu et al., 2024), our system returns tracing results within a few seconds. OLMoTrace can help users understand the behavior of language models through the lens of their training data. We showcase how it can be used to explore fact checking, hallucination, and the creativity of language models. OLMoTrace is publicly available and fully open-source.

Summary

AI-Generated Summary

PDF733April 10, 2025