ChatPaper.aiChatPaper

スパースオートエンコーダを用いた人工テキスト検出における特徴レベルの洞察

Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

March 5, 2025
著者: Kristian Kuznetsov, Laida Kushnareva, Polina Druzhinina, Anton Razzhigaev, Anastasia Voznyuk, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov
cs.AI

要旨

人工テキスト検出(ATD)は、高度な大規模言語モデル(LLM)の台頭に伴い、その重要性を増しています。多くの取り組みがなされているにもかかわらず、未見のテキストの種類や新しいLLMへの効果的な一般化を保証する単一のアルゴリズムは存在しません。この目標を達成する上で、解釈可能性が重要な役割を果たします。本研究では、Sparse Autoencoder(SAE)を使用してGemma-2-2bの残差ストリームから特徴を抽出し、ATDの解釈可能性を向上させます。解釈可能で効率的な特徴を特定し、それらの意味と関連性を、ドメインおよびモデル固有の統計、ステアリングアプローチ、手動またはLLMベースの解釈を通じて分析します。私たちの手法は、さまざまなモデルからのテキストが人間が書いた内容とどのように異なるかについての貴重な洞察を提供します。現代のLLMは、特に情報密度の高いドメインにおいて、個別化されたプロンプトで人間らしい出力を生成できるにもかかわらず、独自の執筆スタイルを持っていることを示します。
English
Artificial Text Detection (ATD) is becoming increasingly important with the rise of advanced Large Language Models (LLMs). Despite numerous efforts, no single algorithm performs consistently well across different types of unseen text or guarantees effective generalization to new LLMs. Interpretability plays a crucial role in achieving this goal. In this study, we enhance ATD interpretability by using Sparse Autoencoders (SAE) to extract features from Gemma-2-2b residual stream. We identify both interpretable and efficient features, analyzing their semantics and relevance through domain- and model-specific statistics, a steering approach, and manual or LLM-based interpretation. Our methods offer valuable insights into how texts from various models differ from human-written content. We show that modern LLMs have a distinct writing style, especially in information-dense domains, even though they can produce human-like outputs with personalized prompts.

Summary

AI-Generated Summary

PDF2322March 11, 2025