Perspectivas a Nivel de Características en la Detección de Texto Artificial con Autoencoders Dispersos
Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders
March 5, 2025
Autores: Kristian Kuznetsov, Laida Kushnareva, Polina Druzhinina, Anton Razzhigaev, Anastasia Voznyuk, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov
cs.AI
Resumen
La Detección de Texto Artificial (ATD, por sus siglas en inglés) está adquiriendo una importancia creciente con el auge de los Modelos de Lenguaje de Gran Escala (LLMs). A pesar de numerosos esfuerzos, ningún algoritmo único funciona consistentemente bien en diferentes tipos de texto no visto ni garantiza una generalización efectiva hacia nuevos LLMs. La interpretabilidad juega un papel crucial para alcanzar este objetivo. En este estudio, mejoramos la interpretabilidad de la ATD utilizando Autoencoders Dispersos (SAE) para extraer características del flujo residual de Gemma-2-2b. Identificamos tanto características interpretables como eficientes, analizando su semántica y relevancia mediante estadísticas específicas del dominio y del modelo, un enfoque de direccionamiento, e interpretación manual o basada en LLMs. Nuestros métodos ofrecen valiosas perspectivas sobre cómo los textos generados por diversos modelos difieren del contenido escrito por humanos. Demostramos que los LLMs modernos tienen un estilo de escritura distintivo, especialmente en dominios con alta densidad de información, a pesar de que pueden producir resultados similares a los humanos mediante indicaciones personalizadas.
English
Artificial Text Detection (ATD) is becoming increasingly important with the
rise of advanced Large Language Models (LLMs). Despite numerous efforts, no
single algorithm performs consistently well across different types of unseen
text or guarantees effective generalization to new LLMs. Interpretability plays
a crucial role in achieving this goal. In this study, we enhance ATD
interpretability by using Sparse Autoencoders (SAE) to extract features from
Gemma-2-2b residual stream. We identify both interpretable and efficient
features, analyzing their semantics and relevance through domain- and
model-specific statistics, a steering approach, and manual or LLM-based
interpretation. Our methods offer valuable insights into how texts from various
models differ from human-written content. We show that modern LLMs have a
distinct writing style, especially in information-dense domains, even though
they can produce human-like outputs with personalized prompts.Summary
AI-Generated Summary