Иллюзия рассуждения: разоблачение скрытого загрязнения данных в LLM с помощью усечения Zero-CoT

Аннотация

Большие языковые модели (БЯМ) продемонстрировали впечатляющие способности к рассуждению в широком спектре задач, однако загрязнение данных подрывает объективную оценку этих способностей. Эта проблема усугубляется недобросовестными разработчиками моделей, которые применяют уклончивые, или непрямые, стратегии загрязнения, например, перефразирование эталонных данных, чтобы обойти существующие методы обнаружения и искусственно повысить свои показатели в рейтингах. Современные подходы с трудом позволяют надежно выявлять такое скрытое загрязнение. В данной работе мы выявляем критически важный феномен: генерируемые моделью шаги рассуждения активно маскируют ее скрытое запоминание. Вдохновленные этим, мы предлагаем Zero-CoT-зонд (ZCP) — новый метод обнаружения типа «черный ящик», который намеренно усекает весь процесс цепочки рассуждений (Chain-of-Thought, CoT), чтобы выявить скрытые сокращенные пути. Чтобы дополнительно отделить запоминание от собственных способностей модели решать задачи, ZCP сравнивает производительность модели в режиме zero-CoT на исходном эталонном наборе данных с эталонным набором данных, подвергнутым изоморфным возмущениям. Кроме того, мы вводим показатель уверенности в загрязнении (Contamination Confidence) — метрику, которая количественно оценивает как вероятность, так и серьезность загрязнения, выходя за рамки простой бинарной классификации. Обширные эксперименты как на ранее выявленных загрязненных моделях, так и на специально дообученных загрязненных моделях показывают, что ZCP надежно обнаруживает как прямое, так и уклончивое загрязнение данных. Код для ZCP доступен по адресу https://github.com/Yifan-Lan/zero-cot-probe.

English

Large language models (LLMs) have demonstrated impressive reasoning abilities across a wide range of tasks, but data contamination undermines the objective evaluation of these capabilities. This problem is further exacerbated by malicious model publishers who use evasive, or indirect, contamination strategies, such as paraphrasing benchmark data to evade existing detection methods and artificially boost leaderboard performance. Current approaches struggle to reliably detect such stealthy contamination. In this work, we uncover a critical phenomenon: a model's generated reasoning steps actively mask its underlying memorization. Inspired by this, we propose the Zero-CoT Probe (ZCP), a novel black-box detection method that deliberately truncates the entire Chain-of-Thought (CoT) process to expose latent shortcut mappings. To further isolate memorization from the model's intrinsic problem-solving capabilities, ZCP compares the model's zero-CoT performance on the original benchmark against an isomorphically perturbed reference dataset. Furthermore, we introduce Contamination Confidence, a metric that quantifies both the likelihood and severity of contamination, moving beyond simple binary classifications. Extensive experiments on both previously identified contaminated models and specially fine-tuned contaminated models demonstrate that ZCP robustly detects both direct and evasive data contamination. The code for ZCP is accessible at https://github.com/Yifan-Lan/zero-cot-probe.