A Ilusão do Raciocínio: Expondo a Contaminação Evasiva de Dados em LLMs via Truncamento Zero-CoT

Resumo

Modelos de linguagem de grande escala (LLMs) demonstraram habilidades impressionantes de raciocínio em uma ampla gama de tarefas, mas a contaminação de dados compromete a avaliação objetiva dessas capacidades. Esse problema é ainda agravado por editores de modelos maliciosos que utilizam estratégias de contaminação evasivas, ou indiretas, como o parafraseamento de dados de referência para escapar dos métodos de detecção existentes e impulsionar artificialmente o desempenho nos rankings. As abordagens atuais têm dificuldade em detectar de forma confiável essa contaminação sorrateira. Neste trabalho, revelamos um fenômeno crítico: as etapas de raciocínio geradas por um modelo mascaram ativamente sua memorização subjacente. Inspirados por isso, propomos a Sonda Zero-CoT (ZCP), um método inovador de detecção em caixa-preta que trunca deliberadamente todo o processo de Cadeia de Pensamento (CoT) para expor mapeamentos de atalho latentes. Para isolar ainda mais a memorização das capacidades intrínsecas de resolução de problemas do modelo, a ZCP compara o desempenho zero-CoT do modelo no conjunto de referência original com um conjunto de dados de referência com perturbação isomórfica. Além disso, introduzimos a Confiança de Contaminação, uma métrica que quantifica tanto a probabilidade quanto a gravidade da contaminação, indo além de simples classificações binárias. Experimentos extensivos, tanto em modelos anteriormente identificados como contaminados quanto em modelos contaminados ajustados finamente, demonstram que a ZCP detecta de forma robusta tanto a contaminação direta quanto a evasiva. O código da ZCP está disponível em https://github.com/Yifan-Lan/zero-cot-probe.

English

Large language models (LLMs) have demonstrated impressive reasoning abilities across a wide range of tasks, but data contamination undermines the objective evaluation of these capabilities. This problem is further exacerbated by malicious model publishers who use evasive, or indirect, contamination strategies, such as paraphrasing benchmark data to evade existing detection methods and artificially boost leaderboard performance. Current approaches struggle to reliably detect such stealthy contamination. In this work, we uncover a critical phenomenon: a model's generated reasoning steps actively mask its underlying memorization. Inspired by this, we propose the Zero-CoT Probe (ZCP), a novel black-box detection method that deliberately truncates the entire Chain-of-Thought (CoT) process to expose latent shortcut mappings. To further isolate memorization from the model's intrinsic problem-solving capabilities, ZCP compares the model's zero-CoT performance on the original benchmark against an isomorphically perturbed reference dataset. Furthermore, we introduce Contamination Confidence, a metric that quantifies both the likelihood and severity of contamination, moving beyond simple binary classifications. Extensive experiments on both previously identified contaminated models and specially fine-tuned contaminated models demonstrate that ZCP robustly detects both direct and evasive data contamination. The code for ZCP is accessible at https://github.com/Yifan-Lan/zero-cot-probe.