スパースオートエンコーダを用いた人工テキスト検出における特徴レベルの洞察Feature-Level Insights into Artificial Text Detection with Sparse
Autoencoders
人工テキスト検出(ATD)は、高度な大規模言語モデル(LLM)の台頭に伴い、その重要性を増しています。多くの取り組みがなされているにもかかわらず、未見のテキストの種類や新しいLLMへの効果的な一般化を保証する単一のアルゴリズムは存在しません。この目標を達成する上で、解釈可能性が重要な役割を果たします。本研究では、Sparse Autoencoder(SAE)を使用してGemma-2-2bの残差ストリームから特徴を抽出し、ATDの解釈可能性を向上させます。解釈可能で効率的な特徴を特定し、それらの意味と関連性を、ドメインおよびモデル固有の統計、ステアリングアプローチ、手動またはLLMベースの解釈を通じて分析します。私たちの手法は、さまざまなモデルからのテキストが人間が書いた内容とどのように異なるかについての貴重な洞察を提供します。現代のLLMは、特に情報密度の高いドメインにおいて、個別化されたプロンプトで人間らしい出力を生成できるにもかかわらず、独自の執筆スタイルを持っていることを示します。