ChatPaper.aiChatPaper

Perspectivas a Nivel de Características en la Detección de Texto Artificial con Autoencoders Dispersos

Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

March 5, 2025
Autores: Kristian Kuznetsov, Laida Kushnareva, Polina Druzhinina, Anton Razzhigaev, Anastasia Voznyuk, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov
cs.AI

Resumen

La Detección de Texto Artificial (ATD, por sus siglas en inglés) está adquiriendo una importancia creciente con el auge de los Modelos de Lenguaje de Gran Escala (LLMs). A pesar de numerosos esfuerzos, ningún algoritmo único funciona consistentemente bien en diferentes tipos de texto no visto ni garantiza una generalización efectiva hacia nuevos LLMs. La interpretabilidad juega un papel crucial para alcanzar este objetivo. En este estudio, mejoramos la interpretabilidad de la ATD utilizando Autoencoders Dispersos (SAE) para extraer características del flujo residual de Gemma-2-2b. Identificamos tanto características interpretables como eficientes, analizando su semántica y relevancia mediante estadísticas específicas del dominio y del modelo, un enfoque de direccionamiento, e interpretación manual o basada en LLMs. Nuestros métodos ofrecen valiosas perspectivas sobre cómo los textos generados por diversos modelos difieren del contenido escrito por humanos. Demostramos que los LLMs modernos tienen un estilo de escritura distintivo, especialmente en dominios con alta densidad de información, a pesar de que pueden producir resultados similares a los humanos mediante indicaciones personalizadas.
English
Artificial Text Detection (ATD) is becoming increasingly important with the rise of advanced Large Language Models (LLMs). Despite numerous efforts, no single algorithm performs consistently well across different types of unseen text or guarantees effective generalization to new LLMs. Interpretability plays a crucial role in achieving this goal. In this study, we enhance ATD interpretability by using Sparse Autoencoders (SAE) to extract features from Gemma-2-2b residual stream. We identify both interpretable and efficient features, analyzing their semantics and relevance through domain- and model-specific statistics, a steering approach, and manual or LLM-based interpretation. Our methods offer valuable insights into how texts from various models differ from human-written content. We show that modern LLMs have a distinct writing style, especially in information-dense domains, even though they can produce human-like outputs with personalized prompts.

Summary

AI-Generated Summary

PDF2322March 11, 2025