L'illusion du raisonnement : Exposer la contamination évasive des données dans les LLM via la troncature Zero-CoT

Résumé

Les grands modèles de langage (LLMs) ont démontré des capacités de raisonnement impressionnantes dans un large éventail de tâches, mais la contamination des données compromet l'évaluation objective de ces capacités. Ce problème est encore aggravé par des éditeurs de modèles malveillants qui utilisent des stratégies de contamination évasives, ou indirectes, comme la paraphrase des données de référence pour contourner les méthodes de détection existantes et gonfler artificiellement les performances dans les classements. Les approches actuelles peinent à détecter de manière fiable une telle contamination furtive. Dans ce travail, nous découvrons un phénomène critique : les étapes de raisonnement générées par un modèle masquent activement sa mémorisation sous-jacente. Inspirés par cela, nous proposons le Zero-CoT Probe (ZCP), une nouvelle méthode de détection en boîte noire qui tronque délibérément l'ensemble du processus de Chaîne de pensée (Chain-of-Thought, CoT) pour exposer les mappings de raccourcis latents. Pour isoler davantage la mémorisation des capacités intrinsèques de résolution de problèmes du modèle, ZCP compare les performances du modèle en mode zéro-CoT sur le benchmark original par rapport à un ensemble de données de référence perturbé de manière isomorphe. De plus, nous introduisons la Confiance de contamination (Contamination Confidence), une métrique qui quantifie à la fois la probabilité et la sévérité de la contamination, allant au-delà de simples classifications binaires. Des expériences approfondies sur des modèles contaminés précédemment identifiés ainsi que sur des modèles contaminés spécialement ajustés montrent que ZCP détecte de manière robuste à la fois la contamination directe et évasive des données. Le code de ZCP est accessible à l'adresse https://github.com/Yifan-Lan/zero-cot-probe.

English

Large language models (LLMs) have demonstrated impressive reasoning abilities across a wide range of tasks, but data contamination undermines the objective evaluation of these capabilities. This problem is further exacerbated by malicious model publishers who use evasive, or indirect, contamination strategies, such as paraphrasing benchmark data to evade existing detection methods and artificially boost leaderboard performance. Current approaches struggle to reliably detect such stealthy contamination. In this work, we uncover a critical phenomenon: a model's generated reasoning steps actively mask its underlying memorization. Inspired by this, we propose the Zero-CoT Probe (ZCP), a novel black-box detection method that deliberately truncates the entire Chain-of-Thought (CoT) process to expose latent shortcut mappings. To further isolate memorization from the model's intrinsic problem-solving capabilities, ZCP compares the model's zero-CoT performance on the original benchmark against an isomorphically perturbed reference dataset. Furthermore, we introduce Contamination Confidence, a metric that quantifies both the likelihood and severity of contamination, moving beyond simple binary classifications. Extensive experiments on both previously identified contaminated models and specially fine-tuned contaminated models demonstrate that ZCP robustly detects both direct and evasive data contamination. The code for ZCP is accessible at https://github.com/Yifan-Lan/zero-cot-probe.