La ilusión del razonamiento: Exponiendo la contaminación evasiva de datos en LLMs mediante el truncamiento Zero-CoT

Resumen

Los modelos de lenguaje de gran escala (LLMs) han demostrado capacidades de razonamiento impresionantes en una amplia gama de tareas, pero la contaminación de datos socava la evaluación objetiva de estas capacidades. Este problema se ve agravado aún más por editores de modelos malintencionados que utilizan estrategias de contaminación evasivas o indirectas, como parafrasear datos de referencia para eludir los métodos de detección existentes y aumentar artificialmente el rendimiento en las tablas de clasificación. Los enfoques actuales tienen dificultades para detectar de manera confiable dicha contaminación sigilosa. En este trabajo, descubrimos un fenómeno crítico: los pasos de razonamiento generados por un modelo enmascaran activamente su memorización subyacente. Inspirándonos en esto, proponemos la Sonda Zero-CoT (ZCP), un novedoso método de detección de caja negra que trunca deliberadamente todo el proceso de Cadena de Pensamiento (CoT) para exponer mapeos de atajo latentes. Para aislar aún más la memorización de las capacidades intrínsecas de resolución de problemas del modelo, ZCP compara el rendimiento zero-CoT del modelo en el conjunto de datos de referencia original con un conjunto de datos de referencia perturbado isomórficamente. Además, introducimos la Confianza de Contaminación, una métrica que cuantifica tanto la probabilidad como la gravedad de la contaminación, yendo más allá de las simples clasificaciones binarias. Extensos experimentos tanto en modelos contaminados previamente identificados como en modelos contaminados especialmente ajustados demuestran que ZCP detecta de manera robusta tanto la contaminación directa como la evasiva de datos. El código de ZCP está accesible en https://github.com/Yifan-Lan/zero-cot-probe.

English

Large language models (LLMs) have demonstrated impressive reasoning abilities across a wide range of tasks, but data contamination undermines the objective evaluation of these capabilities. This problem is further exacerbated by malicious model publishers who use evasive, or indirect, contamination strategies, such as paraphrasing benchmark data to evade existing detection methods and artificially boost leaderboard performance. Current approaches struggle to reliably detect such stealthy contamination. In this work, we uncover a critical phenomenon: a model's generated reasoning steps actively mask its underlying memorization. Inspired by this, we propose the Zero-CoT Probe (ZCP), a novel black-box detection method that deliberately truncates the entire Chain-of-Thought (CoT) process to expose latent shortcut mappings. To further isolate memorization from the model's intrinsic problem-solving capabilities, ZCP compares the model's zero-CoT performance on the original benchmark against an isomorphically perturbed reference dataset. Furthermore, we introduce Contamination Confidence, a metric that quantifies both the likelihood and severity of contamination, moving beyond simple binary classifications. Extensive experiments on both previously identified contaminated models and specially fine-tuned contaminated models demonstrate that ZCP robustly detects both direct and evasive data contamination. The code for ZCP is accessible at https://github.com/Yifan-Lan/zero-cot-probe.