De Illusie van Redeneren: Het Blootleggen van Ontwijkende Datacontaminatie in LLM's via Zero-CoT-Truncatie

Samenvatting

Grote taalmodellen (LLM's) hebben indrukwekkende redeneervermogens getoond voor een breed scala aan taken, maar datacontaminatie ondermijnt de objectieve evaluatie van deze capaciteiten. Dit probleem wordt nog verergerd door kwaadwillige modeluitgevers die ontwijkende, of indirecte, contaminatiestrategieën gebruiken, zoals het parafraseren van benchmarkgegevens om bestaande detectiemethoden te omzeilen en de leaderboardprestaties kunstmatig te verhogen. Huidige benaderingen hebben moeite om dergelijke sluipende contaminatie betrouwbaar te detecteren. In dit werk ontdekken we een kritisch fenomeen: de gegenereerde redeneerstappen van een model maskeren actief de onderliggende memorisatie. Geïnspireerd hierdoor stellen we de Zero-CoT Probe (ZCP) voor, een nieuwe zwarte-box-detectiemethode die bewust het volledige Chain-of-Thought (CoT)-proces afbreekt om verborgen snelkoppelingsmappingen bloot te leggen. Om memorisatie verder te isoleren van de intrinsieke probleemoplossende vermogens van het model, vergelijkt ZCP de zero-CoT-prestaties van het model op de oorspronkelijke benchmark met een isomorf verstoorde referentiedataset. Daarnaast introduceren we Contaminatiebetrouwbaarheid, een metriek die zowel de waarschijnlijkheid als de ernst van contaminatie kwantificeert, voorbij eenvoudige binaire classificaties. Uitgebreide experimenten op zowel eerder geïdentificeerde gecontamineerde modellen als speciaal fijngetunede gecontamineerde modellen tonen aan dat ZCP zowel directe als ontwijkende datacontaminatie robuust detecteert. De code voor ZCP is toegankelijk op https://github.com/Yifan-Lan/zero-cot-probe.

English

Large language models (LLMs) have demonstrated impressive reasoning abilities across a wide range of tasks, but data contamination undermines the objective evaluation of these capabilities. This problem is further exacerbated by malicious model publishers who use evasive, or indirect, contamination strategies, such as paraphrasing benchmark data to evade existing detection methods and artificially boost leaderboard performance. Current approaches struggle to reliably detect such stealthy contamination. In this work, we uncover a critical phenomenon: a model's generated reasoning steps actively mask its underlying memorization. Inspired by this, we propose the Zero-CoT Probe (ZCP), a novel black-box detection method that deliberately truncates the entire Chain-of-Thought (CoT) process to expose latent shortcut mappings. To further isolate memorization from the model's intrinsic problem-solving capabilities, ZCP compares the model's zero-CoT performance on the original benchmark against an isomorphically perturbed reference dataset. Furthermore, we introduce Contamination Confidence, a metric that quantifies both the likelihood and severity of contamination, moving beyond simple binary classifications. Extensive experiments on both previously identified contaminated models and specially fine-tuned contaminated models demonstrate that ZCP robustly detects both direct and evasive data contamination. The code for ZCP is accessible at https://github.com/Yifan-Lan/zero-cot-probe.