CipherBank: Explorando los límites de las capacidades de razonamiento de los LLM mediante desafíos criptográficos
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges
April 27, 2025
Autores: Yu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables, especialmente los avances recientes en razonamiento, como o1 y o3, que han llevado los límites de la inteligencia artificial a nuevos horizontes. A pesar de estos logros impresionantes en matemáticas y programación, las habilidades de razonamiento de los LLMs en dominios que requieren experiencia criptográfica siguen siendo poco exploradas. En este artículo, presentamos CipherBank, un benchmark integral diseñado para evaluar las capacidades de razonamiento de los LLMs en tareas de descifrado criptográfico. CipherBank consta de 2,358 problemas cuidadosamente elaborados, que abarcan 262 textos planos únicos en 5 dominios y 14 subdominios, con un enfoque en escenarios sensibles a la privacidad y del mundo real que requieren cifrado. Desde una perspectiva criptográfica, CipherBank incorpora 3 categorías principales de métodos de cifrado, que abarcan 9 algoritmos distintos, desde cifrados clásicos hasta técnicas criptográficas personalizadas. Evaluamos LLMs de vanguardia en CipherBank, como GPT-4o, DeepSeek-V3, y modelos avanzados centrados en el razonamiento, como o1 y DeepSeek-R1. Nuestros resultados revelan brechas significativas en las habilidades de razonamiento, no solo entre los LLMs de chat de propósito general y los LLMs centrados en el razonamiento, sino también en el rendimiento de los modelos actuales centrados en el razonamiento cuando se aplican a tareas de descifrado criptográfico clásico, destacando los desafíos que estos modelos enfrentan para comprender y manipular datos cifrados. A través de un análisis detallado y la investigación de errores, proporcionamos varias observaciones clave que arrojan luz sobre las limitaciones y áreas potenciales de mejora para los LLMs en el razonamiento criptográfico. Estos hallazgos subrayan la necesidad de avances continuos en las capacidades de razonamiento de los LLMs.
English
Large language models (LLMs) have demonstrated remarkable capabilities,
especially the recent advancements in reasoning, such as o1 and o3, pushing the
boundaries of AI. Despite these impressive achievements in mathematics and
coding, the reasoning abilities of LLMs in domains requiring cryptographic
expertise remain underexplored. In this paper, we introduce CipherBank, a
comprehensive benchmark designed to evaluate the reasoning capabilities of LLMs
in cryptographic decryption tasks. CipherBank comprises 2,358 meticulously
crafted problems, covering 262 unique plaintexts across 5 domains and 14
subdomains, with a focus on privacy-sensitive and real-world scenarios that
necessitate encryption. From a cryptographic perspective, CipherBank
incorporates 3 major categories of encryption methods, spanning 9 distinct
algorithms, ranging from classical ciphers to custom cryptographic techniques.
We evaluate state-of-the-art LLMs on CipherBank, e.g., GPT-4o, DeepSeek-V3, and
cutting-edge reasoning-focused models such as o1 and DeepSeek-R1. Our results
reveal significant gaps in reasoning abilities not only between general-purpose
chat LLMs and reasoning-focused LLMs but also in the performance of current
reasoning-focused models when applied to classical cryptographic decryption
tasks, highlighting the challenges these models face in understanding and
manipulating encrypted data. Through detailed analysis and error
investigations, we provide several key observations that shed light on the
limitations and potential improvement areas for LLMs in cryptographic
reasoning. These findings underscore the need for continuous advancements in
LLM reasoning capabilities.Summary
AI-Generated Summary