Inzichten op Featureniveau in Kunstmatige Tekstdetectie met Sparse
AutoencodersFeature-Level Insights into Artificial Text Detection with Sparse
Autoencoders
Detectie van Kunstmatige Tekst (ATD) wordt steeds belangrijker met de opkomst van geavanceerde Large Language Models (LLMs). Ondanks talrijke inspanningen presteert geen enkel algoritme consistent goed over verschillende soorten ongeziene tekst of garandeert het effectieve generalisatie naar nieuwe LLMs. Interpretabiliteit speelt een cruciale rol bij het bereiken van dit doel. In deze studie verbeteren we de interpretabiliteit van ATD door gebruik te maken van Sparse Autoencoders (SAE) om kenmerken te extraheren uit de reststroom van Gemma-2-2b. We identificeren zowel interpreteerbare als efficiënte kenmerken en analyseren hun semantiek en relevantie door middel van domein- en modelspecifieke statistieken, een stuurmethode, en handmatige of LLM-gebaseerde interpretatie. Onze methoden bieden waardevolle inzichten in hoe teksten van verschillende modellen verschillen van door mensen geschreven inhoud. We laten zien dat moderne LLMs een onderscheidende schrijfstijl hebben, vooral in informatie-dichte domeinen, ook al kunnen ze mensachtige uitvoer produceren met gepersonaliseerde prompts.