Особенности выявления искусственного текста с использованием разреженных автокодировщиков на уровне признаковFeature-Level Insights into Artificial Text Detection with Sparse
Autoencoders
Обнаружение искусственного текста (ATD) становится все более важным с развитием современных крупных языковых моделей (LLMs). Несмотря на многочисленные усилия, ни один алгоритм не демонстрирует стабильно высокую эффективность на различных типах неизвестного текста или не гарантирует успешного обобщения для новых LLM. Интерпретируемость играет ключевую роль в достижении этой цели. В данном исследовании мы улучшаем интерпретируемость ATD, используя разреженные автокодировщики (SAE) для извлечения признаков из остаточного потока модели Gemma-2-2b. Мы выявляем как интерпретируемые, так и эффективные признаки, анализируя их семантику и значимость с помощью статистики, специфичной для домена и модели, метода управления (steering), а также ручной или LLM-опосредованной интерпретации. Наши методы предоставляют ценные инсайты о том, чем тексты, созданные различными моделями, отличаются от написанных человеком. Мы показываем, что современные LLM обладают уникальным стилем письма, особенно в информационно насыщенных областях, даже несмотря на то, что они могут генерировать человеко-подобные тексты с персонализированными запросами.