Perspectives au niveau des caractéristiques sur la détection de texte artificiel avec des autoencodeurs parcimonieux
Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders
March 5, 2025
Auteurs: Kristian Kuznetsov, Laida Kushnareva, Polina Druzhinina, Anton Razzhigaev, Anastasia Voznyuk, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov
cs.AI
Résumé
La détection de texte artificiel (ATD) devient de plus en plus importante avec l'essor des modèles de langage de grande taille (LLMs) avancés. Malgré de nombreux efforts, aucun algorithme unique ne performe de manière constante sur différents types de texte inconnu ou ne garantit une généralisation efficace aux nouveaux LLMs. L'interprétabilité joue un rôle crucial dans la réalisation de cet objectif. Dans cette étude, nous améliorons l'interprétabilité de l'ATD en utilisant des autoencodeurs parcimonieux (SAE) pour extraire des caractéristiques du flux résiduel de Gemma-2-2b. Nous identifions à la fois des caractéristiques interprétables et efficaces, en analysant leur sémantique et leur pertinence à travers des statistiques spécifiques au domaine et au modèle, une approche de pilotage, et une interprétation manuelle ou basée sur des LLMs. Nos méthodes offrent des insights précieux sur la manière dont les textes provenant de divers modèles diffèrent du contenu écrit par des humains. Nous montrons que les LLMs modernes ont un style d'écriture distinct, en particulier dans les domaines à forte densité d'information, même s'ils peuvent produire des sorties semblables à celles des humains avec des invites personnalisées.
English
Artificial Text Detection (ATD) is becoming increasingly important with the
rise of advanced Large Language Models (LLMs). Despite numerous efforts, no
single algorithm performs consistently well across different types of unseen
text or guarantees effective generalization to new LLMs. Interpretability plays
a crucial role in achieving this goal. In this study, we enhance ATD
interpretability by using Sparse Autoencoders (SAE) to extract features from
Gemma-2-2b residual stream. We identify both interpretable and efficient
features, analyzing their semantics and relevance through domain- and
model-specific statistics, a steering approach, and manual or LLM-based
interpretation. Our methods offer valuable insights into how texts from various
models differ from human-written content. We show that modern LLMs have a
distinct writing style, especially in information-dense domains, even though
they can produce human-like outputs with personalized prompts.Summary
AI-Generated Summary