CipherBank: 암호학 도전 과제를 통해 LLM의 추론 능력 경계 탐구
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges
April 27, 2025
저자: Yu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu
cs.AI
초록
대규모 언어 모델(LLM)은 특히 o1과 o3와 같은 최근의 추론 능력 발전을 통해 AI의 한계를 넓히며 놀라운 역량을 보여주고 있습니다. 수학 및 코딩 분야에서 이러한 인상적인 성과에도 불구하고, 암호화 전문 지식이 필요한 영역에서의 LLM의 추론 능력은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 암호 해독 작업에서 LLM의 추론 능력을 평가하기 위해 설계된 포괄적인 벤치마크인 CipherBank을 소개합니다. CipherBank는 5개 도메인과 14개 하위 도메인에 걸쳐 262개의 고유한 평문을 포함한 2,358개의 세심하게 제작된 문제로 구성되어 있으며, 암호화가 필요한 개인정보 보호 및 실제 시나리오에 초점을 맞추고 있습니다. 암호학적 관점에서 CipherBank는 고전 암호부터 맞춤형 암호 기술까지 9개의 독특한 알고리즘을 아우르는 3가지 주요 암호화 방법 범주를 포함합니다. 우리는 CipherBank에서 GPT-4o, DeepSeek-V3와 같은 최첨단 LLM과 o1 및 DeepSeek-R1과 같은 추론 중심 모델을 평가했습니다. 그 결과, 일반적인 채팅 LLM과 추론 중심 LLM 간의 추론 능력 차이뿐만 아니라, 고전 암호 해독 작업에 적용된 현재의 추론 중심 모델의 성능에서도 상당한 격차가 있음을 발견했습니다. 이는 이러한 모델들이 암호화된 데이터를 이해하고 조작하는 데 직면한 도전을 강조합니다. 상세한 분석과 오류 조사를 통해, 우리는 암호학적 추론에서 LLM의 한계와 잠재적인 개선 영역을 밝히는 몇 가지 주요 관찰 결과를 제공합니다. 이러한 발견은 LLM의 추론 능력 지속적인 발전의 필요성을 강조합니다.
English
Large language models (LLMs) have demonstrated remarkable capabilities,
especially the recent advancements in reasoning, such as o1 and o3, pushing the
boundaries of AI. Despite these impressive achievements in mathematics and
coding, the reasoning abilities of LLMs in domains requiring cryptographic
expertise remain underexplored. In this paper, we introduce CipherBank, a
comprehensive benchmark designed to evaluate the reasoning capabilities of LLMs
in cryptographic decryption tasks. CipherBank comprises 2,358 meticulously
crafted problems, covering 262 unique plaintexts across 5 domains and 14
subdomains, with a focus on privacy-sensitive and real-world scenarios that
necessitate encryption. From a cryptographic perspective, CipherBank
incorporates 3 major categories of encryption methods, spanning 9 distinct
algorithms, ranging from classical ciphers to custom cryptographic techniques.
We evaluate state-of-the-art LLMs on CipherBank, e.g., GPT-4o, DeepSeek-V3, and
cutting-edge reasoning-focused models such as o1 and DeepSeek-R1. Our results
reveal significant gaps in reasoning abilities not only between general-purpose
chat LLMs and reasoning-focused LLMs but also in the performance of current
reasoning-focused models when applied to classical cryptographic decryption
tasks, highlighting the challenges these models face in understanding and
manipulating encrypted data. Through detailed analysis and error
investigations, we provide several key observations that shed light on the
limitations and potential improvement areas for LLMs in cryptographic
reasoning. These findings underscore the need for continuous advancements in
LLM reasoning capabilities.Summary
AI-Generated Summary