OLMoTrace: Rastreando las Salidas de Modelos de Lenguaje hasta Billones de Tokens de EntrenamientoOLMoTrace: Tracing Language Model Outputs Back to Trillions of Training
Tokens
Presentamos OLMoTrace, el primer sistema que rastrea las salidas de los modelos de lenguaje hasta sus datos de entrenamiento completos, compuestos por billones de tokens, en tiempo real. OLMoTrace encuentra y muestra coincidencias textuales entre segmentos de la salida del modelo de lenguaje y documentos en los corpus de texto de entrenamiento. Impulsado por una versión extendida de infini-gram (Liu et al., 2024), nuestro sistema devuelve resultados de rastreo en cuestión de segundos. OLMoTrace puede ayudar a los usuarios a comprender el comportamiento de los modelos de lenguaje a través del lente de sus datos de entrenamiento. Demostramos cómo puede utilizarse para explorar la verificación de hechos, las alucinaciones y la creatividad de los modelos de lenguaje. OLMoTrace está disponible públicamente y es completamente de código abierto.