Insights em Nível de Características na Detecção de Texto Artificial com Autoencoders Esparsos
Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders
March 5, 2025
Autores: Kristian Kuznetsov, Laida Kushnareva, Polina Druzhinina, Anton Razzhigaev, Anastasia Voznyuk, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov
cs.AI
Resumo
A Detecção de Texto Artificial (ATD) está se tornando cada vez mais importante com o avanço dos Modelos de Linguagem de Grande Escala (LLMs). Apesar de inúmeros esforços, nenhum algoritmo único apresenta desempenho consistente em diferentes tipos de texto não visto ou garante uma generalização eficaz para novos LLMs. A interpretabilidade desempenha um papel crucial no alcance desse objetivo. Neste estudo, aprimoramos a interpretabilidade da ATD utilizando Autoencoders Esparsos (SAE) para extrair características do fluxo residual do Gemma-2-2b. Identificamos características tanto interpretáveis quanto eficientes, analisando sua semântica e relevância por meio de estatísticas específicas do domínio e do modelo, uma abordagem de direcionamento e interpretação manual ou baseada em LLM. Nossos métodos oferecem insights valiosos sobre como os textos de vários modelos diferem do conteúdo escrito por humanos. Demonstramos que os LLMs modernos possuem um estilo de escrita distinto, especialmente em domínios com alta densidade de informação, mesmo que possam produzir saídas semelhantes às humanas com prompts personalizados.
English
Artificial Text Detection (ATD) is becoming increasingly important with the
rise of advanced Large Language Models (LLMs). Despite numerous efforts, no
single algorithm performs consistently well across different types of unseen
text or guarantees effective generalization to new LLMs. Interpretability plays
a crucial role in achieving this goal. In this study, we enhance ATD
interpretability by using Sparse Autoencoders (SAE) to extract features from
Gemma-2-2b residual stream. We identify both interpretable and efficient
features, analyzing their semantics and relevance through domain- and
model-specific statistics, a steering approach, and manual or LLM-based
interpretation. Our methods offer valuable insights into how texts from various
models differ from human-written content. We show that modern LLMs have a
distinct writing style, especially in information-dense domains, even though
they can produce human-like outputs with personalized prompts.Summary
AI-Generated Summary