Perspectives au niveau des caractéristiques sur la détection de texte artificiel avec des autoencodeurs parcimonieuxFeature-Level Insights into Artificial Text Detection with Sparse
Autoencoders
La détection de texte artificiel (ATD) devient de plus en plus importante avec l'essor des modèles de langage de grande taille (LLMs) avancés. Malgré de nombreux efforts, aucun algorithme unique ne performe de manière constante sur différents types de texte inconnu ou ne garantit une généralisation efficace aux nouveaux LLMs. L'interprétabilité joue un rôle crucial dans la réalisation de cet objectif. Dans cette étude, nous améliorons l'interprétabilité de l'ATD en utilisant des autoencodeurs parcimonieux (SAE) pour extraire des caractéristiques du flux résiduel de Gemma-2-2b. Nous identifions à la fois des caractéristiques interprétables et efficaces, en analysant leur sémantique et leur pertinence à travers des statistiques spécifiques au domaine et au modèle, une approche de pilotage, et une interprétation manuelle ou basée sur des LLMs. Nos méthodes offrent des insights précieux sur la manière dont les textes provenant de divers modèles diffèrent du contenu écrit par des humains. Nous montrons que les LLMs modernes ont un style d'écriture distinct, en particulier dans les domaines à forte densité d'information, même s'ils peuvent produire des sorties semblables à celles des humains avec des invites personnalisées.