CipherBank: Esplorare i Confini delle Capacità di Ragionamento dei Modelli Linguistici di Grande Dimensione attraverso Sfide Crittografiche
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges
April 27, 2025
Autori: Yu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato capacità straordinarie, in particolare i recenti progressi nel ragionamento, come o1 e o3, che spingono i confini dell'IA. Nonostante questi impressionanti risultati in matematica e programmazione, le abilità di ragionamento degli LLM in domini che richiedono competenze crittografiche rimangono poco esplorate. In questo articolo, introduciamo CipherBank, un benchmark completo progettato per valutare le capacità di ragionamento degli LLM in compiti di decrittazione crittografica. CipherBank comprende 2.358 problemi accuratamente elaborati, che coprono 262 testi in chiaro unici in 5 domini e 14 sottodomini, con un focus su scenari sensibili alla privacy e reali che necessitano di crittografia. Da una prospettiva crittografica, CipherBank incorpora 3 principali categorie di metodi di cifratura, comprendenti 9 algoritmi distinti, che vanno dai cifrari classici alle tecniche crittografiche personalizzate. Valutiamo gli LLM all'avanguardia su CipherBank, ad esempio GPT-4o, DeepSeek-V3, e modelli focalizzati sul ragionamento come o1 e DeepSeek-R1. I nostri risultati rivelano significative lacune nelle capacità di ragionamento non solo tra gli LLM generici per il chat e quelli focalizzati sul ragionamento, ma anche nelle prestazioni dei modelli attuali focalizzati sul ragionamento quando applicati a compiti di decrittazione crittografica classica, evidenziando le sfide che questi modelli affrontano nel comprendere e manipolare dati crittografati. Attraverso un'analisi dettagliata e indagini sugli errori, forniamo diverse osservazioni chiave che gettano luce sui limiti e sulle aree di potenziale miglioramento per gli LLM nel ragionamento crittografico. Questi risultati sottolineano la necessità di continui progressi nelle capacità di ragionamento degli LLM.
English
Large language models (LLMs) have demonstrated remarkable capabilities,
especially the recent advancements in reasoning, such as o1 and o3, pushing the
boundaries of AI. Despite these impressive achievements in mathematics and
coding, the reasoning abilities of LLMs in domains requiring cryptographic
expertise remain underexplored. In this paper, we introduce CipherBank, a
comprehensive benchmark designed to evaluate the reasoning capabilities of LLMs
in cryptographic decryption tasks. CipherBank comprises 2,358 meticulously
crafted problems, covering 262 unique plaintexts across 5 domains and 14
subdomains, with a focus on privacy-sensitive and real-world scenarios that
necessitate encryption. From a cryptographic perspective, CipherBank
incorporates 3 major categories of encryption methods, spanning 9 distinct
algorithms, ranging from classical ciphers to custom cryptographic techniques.
We evaluate state-of-the-art LLMs on CipherBank, e.g., GPT-4o, DeepSeek-V3, and
cutting-edge reasoning-focused models such as o1 and DeepSeek-R1. Our results
reveal significant gaps in reasoning abilities not only between general-purpose
chat LLMs and reasoning-focused LLMs but also in the performance of current
reasoning-focused models when applied to classical cryptographic decryption
tasks, highlighting the challenges these models face in understanding and
manipulating encrypted data. Through detailed analysis and error
investigations, we provide several key observations that shed light on the
limitations and potential improvement areas for LLMs in cryptographic
reasoning. These findings underscore the need for continuous advancements in
LLM reasoning capabilities.