CipherBank: Het verkennen van de grenzen van redeneervaardigheden van grote taalmodelen via cryptografie-uitdagingen
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges
April 27, 2025
Auteurs: Yu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond, met name de recente vooruitgang in redeneervaardigheden, zoals o1 en o3, die de grenzen van AI verleggen. Ondanks deze indrukwekkende prestaties in wiskunde en programmeren, blijven de redeneervaardigheden van LLMs in domeinen die cryptografische expertise vereisen onderbelicht. In dit artikel introduceren we CipherBank, een uitgebreide benchmark ontworpen om de redeneervaardigheden van LLMs te evalueren in cryptografische decryptietaken. CipherBank bestaat uit 2.358 zorgvuldig ontworpen problemen, die 262 unieke platte teksten beslaan over 5 domeinen en 14 subdomeinen, met een focus op privacygevoelige en realistische scenario's die encryptie vereisen. Vanuit cryptografisch perspectief omvat CipherBank 3 hoofdcategorieën van encryptiemethoden, met 9 verschillende algoritmen, variërend van klassieke cijfers tot aangepaste cryptografische technieken. We evalueren state-of-the-art LLMs op CipherBank, zoals GPT-4o, DeepSeek-V3, en geavanceerde modellen gericht op redeneren, zoals o1 en DeepSeek-R1. Onze resultaten tonen significante verschillen in redeneervaardigheden, niet alleen tussen algemene chat-LLMs en LLMs gericht op redeneren, maar ook in de prestaties van huidige redeneergerichte modellen bij klassieke cryptografische decryptietaken, wat de uitdagingen benadrukt die deze modellen hebben bij het begrijpen en manipuleren van versleutelde gegevens. Door gedetailleerde analyses en foutonderzoeken bieden we verschillende belangrijke observaties die inzicht geven in de beperkingen en mogelijke verbeteringsgebieden voor LLMs in cryptografisch redeneren. Deze bevindingen onderstrepen de noodzaak van voortdurende vooruitgang in de redeneervaardigheden van LLMs.
English
Large language models (LLMs) have demonstrated remarkable capabilities,
especially the recent advancements in reasoning, such as o1 and o3, pushing the
boundaries of AI. Despite these impressive achievements in mathematics and
coding, the reasoning abilities of LLMs in domains requiring cryptographic
expertise remain underexplored. In this paper, we introduce CipherBank, a
comprehensive benchmark designed to evaluate the reasoning capabilities of LLMs
in cryptographic decryption tasks. CipherBank comprises 2,358 meticulously
crafted problems, covering 262 unique plaintexts across 5 domains and 14
subdomains, with a focus on privacy-sensitive and real-world scenarios that
necessitate encryption. From a cryptographic perspective, CipherBank
incorporates 3 major categories of encryption methods, spanning 9 distinct
algorithms, ranging from classical ciphers to custom cryptographic techniques.
We evaluate state-of-the-art LLMs on CipherBank, e.g., GPT-4o, DeepSeek-V3, and
cutting-edge reasoning-focused models such as o1 and DeepSeek-R1. Our results
reveal significant gaps in reasoning abilities not only between general-purpose
chat LLMs and reasoning-focused LLMs but also in the performance of current
reasoning-focused models when applied to classical cryptographic decryption
tasks, highlighting the challenges these models face in understanding and
manipulating encrypted data. Through detailed analysis and error
investigations, we provide several key observations that shed light on the
limitations and potential improvement areas for LLMs in cryptographic
reasoning. These findings underscore the need for continuous advancements in
LLM reasoning capabilities.Summary
AI-Generated Summary