Perspectivas a Nivel de Características en la Detección de Texto Artificial con Autoencoders DispersosFeature-Level Insights into Artificial Text Detection with Sparse
Autoencoders
La Detección de Texto Artificial (ATD, por sus siglas en inglés) está adquiriendo una importancia creciente con el auge de los Modelos de Lenguaje de Gran Escala (LLMs). A pesar de numerosos esfuerzos, ningún algoritmo único funciona consistentemente bien en diferentes tipos de texto no visto ni garantiza una generalización efectiva hacia nuevos LLMs. La interpretabilidad juega un papel crucial para alcanzar este objetivo. En este estudio, mejoramos la interpretabilidad de la ATD utilizando Autoencoders Dispersos (SAE) para extraer características del flujo residual de Gemma-2-2b. Identificamos tanto características interpretables como eficientes, analizando su semántica y relevancia mediante estadísticas específicas del dominio y del modelo, un enfoque de direccionamiento, e interpretación manual o basada en LLMs. Nuestros métodos ofrecen valiosas perspectivas sobre cómo los textos generados por diversos modelos difieren del contenido escrito por humanos. Demostramos que los LLMs modernos tienen un estilo de escritura distintivo, especialmente en dominios con alta densidad de información, a pesar de que pueden producir resultados similares a los humanos mediante indicaciones personalizadas.