CipherBank : Explorer les limites des capacités de raisonnement des LLM à travers des défis cryptographiques
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges
April 27, 2025
Auteurs: Yu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu
cs.AI
Résumé
Les grands modèles de langage (LLM) ont démontré des capacités remarquables, en particulier les récents progrès en matière de raisonnement, tels que o1 et o3, repoussant les limites de l'IA. Malgré ces réalisations impressionnantes en mathématiques et en programmation, les capacités de raisonnement des LLM dans les domaines nécessitant une expertise cryptographique restent peu explorées. Dans cet article, nous présentons CipherBank, un benchmark complet conçu pour évaluer les capacités de raisonnement des LLM dans les tâches de décryptage cryptographique. CipherBank comprend 2 358 problèmes soigneusement élaborés, couvrant 262 textes clairs uniques répartis dans 5 domaines et 14 sous-domaines, en mettant l'accent sur des scénarios sensibles à la vie privée et réalistes nécessitant un chiffrement. D'un point de vue cryptographique, CipherBank intègre 3 grandes catégories de méthodes de chiffrement, englobant 9 algorithmes distincts, allant des chiffrements classiques aux techniques cryptographiques personnalisées. Nous évaluons les LLM de pointe sur CipherBank, par exemple GPT-4o, DeepSeek-V3, ainsi que des modèles axés sur le raisonnement de pointe tels que o1 et DeepSeek-R1. Nos résultats révèlent des lacunes significatives dans les capacités de raisonnement, non seulement entre les LLM de discussion généralistes et les LLM axés sur le raisonnement, mais aussi dans la performance des modèles actuels axés sur le raisonnement lorsqu'ils sont appliqués à des tâches de décryptage cryptographique classiques, mettant en évidence les défis que ces modèles rencontrent pour comprendre et manipuler les données chiffrées. Grâce à une analyse détaillée et à des investigations sur les erreurs, nous fournissons plusieurs observations clés qui éclairent les limites et les domaines d'amélioration potentiels pour les LLM en matière de raisonnement cryptographique. Ces résultats soulignent la nécessité d'avancées continues dans les capacités de raisonnement des LLM.
English
Large language models (LLMs) have demonstrated remarkable capabilities,
especially the recent advancements in reasoning, such as o1 and o3, pushing the
boundaries of AI. Despite these impressive achievements in mathematics and
coding, the reasoning abilities of LLMs in domains requiring cryptographic
expertise remain underexplored. In this paper, we introduce CipherBank, a
comprehensive benchmark designed to evaluate the reasoning capabilities of LLMs
in cryptographic decryption tasks. CipherBank comprises 2,358 meticulously
crafted problems, covering 262 unique plaintexts across 5 domains and 14
subdomains, with a focus on privacy-sensitive and real-world scenarios that
necessitate encryption. From a cryptographic perspective, CipherBank
incorporates 3 major categories of encryption methods, spanning 9 distinct
algorithms, ranging from classical ciphers to custom cryptographic techniques.
We evaluate state-of-the-art LLMs on CipherBank, e.g., GPT-4o, DeepSeek-V3, and
cutting-edge reasoning-focused models such as o1 and DeepSeek-R1. Our results
reveal significant gaps in reasoning abilities not only between general-purpose
chat LLMs and reasoning-focused LLMs but also in the performance of current
reasoning-focused models when applied to classical cryptographic decryption
tasks, highlighting the challenges these models face in understanding and
manipulating encrypted data. Through detailed analysis and error
investigations, we provide several key observations that shed light on the
limitations and potential improvement areas for LLMs in cryptographic
reasoning. These findings underscore the need for continuous advancements in
LLM reasoning capabilities.Summary
AI-Generated Summary