희소 오토인코더를 활용한 인공 텍스트 탐지의 특징 수준 분석
Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders
March 5, 2025
저자: Kristian Kuznetsov, Laida Kushnareva, Polina Druzhinina, Anton Razzhigaev, Anastasia Voznyuk, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov
cs.AI
초록
고급 대형 언어 모델(LLMs)의 부상과 함께 인공 텍스트 탐지(ATD)의 중요성이 점점 더 커지고 있습니다. 수많은 노력에도 불구하고, 다양한 유형의 미지의 텍스트에 걸쳐 일관되게 우수한 성능을 보이거나 새로운 LLMs에 효과적으로 일반화할 수 있는 단일 알고리즘은 아직 존재하지 않습니다. 이러한 목표를 달성하는 데 있어 해석 가능성은 중요한 역할을 합니다. 본 연구에서는 Sparse Autoencoder(SAE)를 사용하여 Gemma-2-2b 잔차 스트림에서 특징을 추출함으로써 ATD의 해석 가능성을 향상시킵니다. 우리는 해석 가능하면서도 효율적인 특징을 식별하고, 도메인 및 모델 특정 통계, 스티어링 접근법, 수동 또는 LLM 기반 해석을 통해 그 의미와 관련성을 분석합니다. 우리의 방법은 다양한 모델에서 생성된 텍스트가 인간이 작성한 내용과 어떻게 다른지에 대한 유용한 통찰을 제공합니다. 우리는 현대의 LLMs가 개인화된 프롬프트로 인간과 유사한 출력을 생성할 수 있음에도 불구하고, 특히 정보 밀도가 높은 영역에서 독특한 글쓰기 스타일을 가지고 있음을 보여줍니다.
English
Artificial Text Detection (ATD) is becoming increasingly important with the
rise of advanced Large Language Models (LLMs). Despite numerous efforts, no
single algorithm performs consistently well across different types of unseen
text or guarantees effective generalization to new LLMs. Interpretability plays
a crucial role in achieving this goal. In this study, we enhance ATD
interpretability by using Sparse Autoencoders (SAE) to extract features from
Gemma-2-2b residual stream. We identify both interpretable and efficient
features, analyzing their semantics and relevance through domain- and
model-specific statistics, a steering approach, and manual or LLM-based
interpretation. Our methods offer valuable insights into how texts from various
models differ from human-written content. We show that modern LLMs have a
distinct writing style, especially in information-dense domains, even though
they can produce human-like outputs with personalized prompts.Summary
AI-Generated Summary