Feature-Level-Einblicke in die Erkennung künstlicher Texte mit spärlichen AutoencodernFeature-Level Insights into Artificial Text Detection with Sparse
Autoencoders
Die Erkennung künstlicher Texte (Artificial Text Detection, ATD) gewinnt mit dem Aufkommen fortschrittlicher großer Sprachmodelle (Large Language Models, LLMs) zunehmend an Bedeutung. Trotz zahlreicher Bemühungen gibt es keinen einzelnen Algorithmus, der konsistent gut bei verschiedenen Arten von unbekannten Texten abschneidet oder eine effektive Generalisierung auf neue LLMs garantiert. Interpretierbarkeit spielt eine entscheidende Rolle bei der Erreichung dieses Ziels. In dieser Studie verbessern wir die Interpretierbarkeit von ATD, indem wir Sparse Autoencoders (SAE) verwenden, um Merkmale aus dem Residual Stream von Gemma-2-2b zu extrahieren. Wir identifizieren sowohl interpretierbare als auch effiziente Merkmale und analysieren ihre Semantik und Relevanz durch domänen- und modellspezifische Statistiken, einen Steuerungsansatz sowie manuelle oder LLM-basierte Interpretation. Unsere Methoden bieten wertvolle Einblicke darin, wie sich Texte verschiedener Modelle von menschengeschriebenen Inhalten unterscheiden. Wir zeigen, dass moderne LLMs einen eigenen Schreibstil haben, insbesondere in informationsdichten Domänen, obwohl sie mit personalisierten Prompts menschenähnliche Ausgaben erzeugen können.