Insights em Nível de Características na Detecção de Texto Artificial com Autoencoders EsparsosFeature-Level Insights into Artificial Text Detection with Sparse
Autoencoders
A Detecção de Texto Artificial (ATD) está se tornando cada vez mais importante com o avanço dos Modelos de Linguagem de Grande Escala (LLMs). Apesar de inúmeros esforços, nenhum algoritmo único apresenta desempenho consistente em diferentes tipos de texto não visto ou garante uma generalização eficaz para novos LLMs. A interpretabilidade desempenha um papel crucial no alcance desse objetivo. Neste estudo, aprimoramos a interpretabilidade da ATD utilizando Autoencoders Esparsos (SAE) para extrair características do fluxo residual do Gemma-2-2b. Identificamos características tanto interpretáveis quanto eficientes, analisando sua semântica e relevância por meio de estatísticas específicas do domínio e do modelo, uma abordagem de direcionamento e interpretação manual ou baseada em LLM. Nossos métodos oferecem insights valiosos sobre como os textos de vários modelos diferem do conteúdo escrito por humanos. Demonstramos que os LLMs modernos possuem um estilo de escrita distinto, especialmente em domínios com alta densidade de informação, mesmo que possam produzir saídas semelhantes às humanas com prompts personalizados.