OLMoTrace: 수조 개의 학습 토큰으로부터 언어 모델 출력의 근원 추적OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training
Tokens
우리는 언어 모델의 출력을 실시간으로 수조 토큰 규모의 전체 학습 데이터에 추적할 수 있는 최초의 시스템인 OLMoTrace를 소개한다. OLMoTrace는 언어 모델 출력의 일부와 학습 텍스트 코퍼스 내 문서 간의 정확한 일치를 찾아 보여준다. Liu 등(2024)이 제안한 infini-gram의 확장 버전을 기반으로 구축된 이 시스템은 몇 초 내에 추적 결과를 반환한다. OLMoTrace는 사용자가 학습 데이터의 관점에서 언어 모델의 동작을 이해하는 데 도움을 줄 수 있다. 우리는 이를 통해 사실 확인, 환각(hallucination) 현상, 그리고 언어 모델의 창의성을 탐구하는 방법을 보여준다. OLMoTrace는 공개적으로 이용 가능하며 완전히 오픈소스로 제공된다.