ChatPaper.aiChatPaper

Inzichten op Featureniveau in Kunstmatige Tekstdetectie met Sparse Autoencoders

Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

March 5, 2025
Auteurs: Kristian Kuznetsov, Laida Kushnareva, Polina Druzhinina, Anton Razzhigaev, Anastasia Voznyuk, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov
cs.AI

Samenvatting

Detectie van Kunstmatige Tekst (ATD) wordt steeds belangrijker met de opkomst van geavanceerde Large Language Models (LLMs). Ondanks talrijke inspanningen presteert geen enkel algoritme consistent goed over verschillende soorten ongeziene tekst of garandeert het effectieve generalisatie naar nieuwe LLMs. Interpretabiliteit speelt een cruciale rol bij het bereiken van dit doel. In deze studie verbeteren we de interpretabiliteit van ATD door gebruik te maken van Sparse Autoencoders (SAE) om kenmerken te extraheren uit de reststroom van Gemma-2-2b. We identificeren zowel interpreteerbare als efficiënte kenmerken en analyseren hun semantiek en relevantie door middel van domein- en modelspecifieke statistieken, een stuurmethode, en handmatige of LLM-gebaseerde interpretatie. Onze methoden bieden waardevolle inzichten in hoe teksten van verschillende modellen verschillen van door mensen geschreven inhoud. We laten zien dat moderne LLMs een onderscheidende schrijfstijl hebben, vooral in informatie-dichte domeinen, ook al kunnen ze mensachtige uitvoer produceren met gepersonaliseerde prompts.
English
Artificial Text Detection (ATD) is becoming increasingly important with the rise of advanced Large Language Models (LLMs). Despite numerous efforts, no single algorithm performs consistently well across different types of unseen text or guarantees effective generalization to new LLMs. Interpretability plays a crucial role in achieving this goal. In this study, we enhance ATD interpretability by using Sparse Autoencoders (SAE) to extract features from Gemma-2-2b residual stream. We identify both interpretable and efficient features, analyzing their semantics and relevance through domain- and model-specific statistics, a steering approach, and manual or LLM-based interpretation. Our methods offer valuable insights into how texts from various models differ from human-written content. We show that modern LLMs have a distinct writing style, especially in information-dense domains, even though they can produce human-like outputs with personalized prompts.

Summary

AI-Generated Summary

PDF2322March 11, 2025