ChatPaper.aiChatPaper

Особенности выявления искусственного текста с использованием разреженных автокодировщиков на уровне признаков

Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

March 5, 2025
Авторы: Kristian Kuznetsov, Laida Kushnareva, Polina Druzhinina, Anton Razzhigaev, Anastasia Voznyuk, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov
cs.AI

Аннотация

Обнаружение искусственного текста (ATD) становится все более важным с развитием современных крупных языковых моделей (LLMs). Несмотря на многочисленные усилия, ни один алгоритм не демонстрирует стабильно высокую эффективность на различных типах неизвестного текста или не гарантирует успешного обобщения для новых LLM. Интерпретируемость играет ключевую роль в достижении этой цели. В данном исследовании мы улучшаем интерпретируемость ATD, используя разреженные автокодировщики (SAE) для извлечения признаков из остаточного потока модели Gemma-2-2b. Мы выявляем как интерпретируемые, так и эффективные признаки, анализируя их семантику и значимость с помощью статистики, специфичной для домена и модели, метода управления (steering), а также ручной или LLM-опосредованной интерпретации. Наши методы предоставляют ценные инсайты о том, чем тексты, созданные различными моделями, отличаются от написанных человеком. Мы показываем, что современные LLM обладают уникальным стилем письма, особенно в информационно насыщенных областях, даже несмотря на то, что они могут генерировать человеко-подобные тексты с персонализированными запросами.
English
Artificial Text Detection (ATD) is becoming increasingly important with the rise of advanced Large Language Models (LLMs). Despite numerous efforts, no single algorithm performs consistently well across different types of unseen text or guarantees effective generalization to new LLMs. Interpretability plays a crucial role in achieving this goal. In this study, we enhance ATD interpretability by using Sparse Autoencoders (SAE) to extract features from Gemma-2-2b residual stream. We identify both interpretable and efficient features, analyzing their semantics and relevance through domain- and model-specific statistics, a steering approach, and manual or LLM-based interpretation. Our methods offer valuable insights into how texts from various models differ from human-written content. We show that modern LLMs have a distinct writing style, especially in information-dense domains, even though they can produce human-like outputs with personalized prompts.

Summary

AI-Generated Summary

PDF2322March 11, 2025