Feature-Level-Einblicke in die Erkennung künstlicher Texte mit spärlichen Autoencodern
Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders
March 5, 2025
Autoren: Kristian Kuznetsov, Laida Kushnareva, Polina Druzhinina, Anton Razzhigaev, Anastasia Voznyuk, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov
cs.AI
Zusammenfassung
Die Erkennung künstlicher Texte (Artificial Text Detection, ATD) gewinnt mit dem Aufkommen fortschrittlicher großer Sprachmodelle (Large Language Models, LLMs) zunehmend an Bedeutung. Trotz zahlreicher Bemühungen gibt es keinen einzelnen Algorithmus, der konsistent gut bei verschiedenen Arten von unbekannten Texten abschneidet oder eine effektive Generalisierung auf neue LLMs garantiert. Interpretierbarkeit spielt eine entscheidende Rolle bei der Erreichung dieses Ziels. In dieser Studie verbessern wir die Interpretierbarkeit von ATD, indem wir Sparse Autoencoders (SAE) verwenden, um Merkmale aus dem Residual Stream von Gemma-2-2b zu extrahieren. Wir identifizieren sowohl interpretierbare als auch effiziente Merkmale und analysieren ihre Semantik und Relevanz durch domänen- und modellspezifische Statistiken, einen Steuerungsansatz sowie manuelle oder LLM-basierte Interpretation. Unsere Methoden bieten wertvolle Einblicke darin, wie sich Texte verschiedener Modelle von menschengeschriebenen Inhalten unterscheiden. Wir zeigen, dass moderne LLMs einen eigenen Schreibstil haben, insbesondere in informationsdichten Domänen, obwohl sie mit personalisierten Prompts menschenähnliche Ausgaben erzeugen können.
English
Artificial Text Detection (ATD) is becoming increasingly important with the
rise of advanced Large Language Models (LLMs). Despite numerous efforts, no
single algorithm performs consistently well across different types of unseen
text or guarantees effective generalization to new LLMs. Interpretability plays
a crucial role in achieving this goal. In this study, we enhance ATD
interpretability by using Sparse Autoencoders (SAE) to extract features from
Gemma-2-2b residual stream. We identify both interpretable and efficient
features, analyzing their semantics and relevance through domain- and
model-specific statistics, a steering approach, and manual or LLM-based
interpretation. Our methods offer valuable insights into how texts from various
models differ from human-written content. We show that modern LLMs have a
distinct writing style, especially in information-dense domains, even though
they can produce human-like outputs with personalized prompts.Summary
AI-Generated Summary