희소 오토인코더를 활용한 인공 텍스트 탐지의 특징 수준 분석Feature-Level Insights into Artificial Text Detection with Sparse
Autoencoders
고급 대형 언어 모델(LLMs)의 부상과 함께 인공 텍스트 탐지(ATD)의 중요성이 점점 더 커지고 있습니다. 수많은 노력에도 불구하고, 다양한 유형의 미지의 텍스트에 걸쳐 일관되게 우수한 성능을 보이거나 새로운 LLMs에 효과적으로 일반화할 수 있는 단일 알고리즘은 아직 존재하지 않습니다. 이러한 목표를 달성하는 데 있어 해석 가능성은 중요한 역할을 합니다. 본 연구에서는 Sparse Autoencoder(SAE)를 사용하여 Gemma-2-2b 잔차 스트림에서 특징을 추출함으로써 ATD의 해석 가능성을 향상시킵니다. 우리는 해석 가능하면서도 효율적인 특징을 식별하고, 도메인 및 모델 특정 통계, 스티어링 접근법, 수동 또는 LLM 기반 해석을 통해 그 의미와 관련성을 분석합니다. 우리의 방법은 다양한 모델에서 생성된 텍스트가 인간이 작성한 내용과 어떻게 다른지에 대한 유용한 통찰을 제공합니다. 우리는 현대의 LLMs가 개인화된 프롬프트로 인간과 유사한 출력을 생성할 수 있음에도 불구하고, 특히 정보 밀도가 높은 영역에서 독특한 글쓰기 스타일을 가지고 있음을 보여줍니다.