CipherBank:暗号技術の課題を通じてLLMの推論能力の限界を探る
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges
April 27, 2025
著者: Yu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu
cs.AI
要旨
大規模言語モデル(LLM)は、特にo1やo3といった推論能力の最近の進歩により、AIの限界を押し広げる顕著な能力を示しています。数学やコーディングにおけるこれらの印象的な成果にもかかわらず、暗号技術の専門知識を必要とする領域でのLLMの推論能力は未だ十分に探求されていません。本論文では、暗号解読タスクにおけるLLMの推論能力を評価するための包括的なベンチマークであるCipherBankを紹介します。CipherBankは、プライバシーに敏感で暗号化を必要とする現実世界のシナリオに焦点を当て、5つのドメインと14のサブドメインにわたる262のユニークな平文を含む2,358の精巧に設計された問題で構成されています。暗号学的観点から、CipherBankは古典的な暗号からカスタム暗号技術まで、9つの異なるアルゴリズムにまたがる3つの主要な暗号化手法のカテゴリを取り入れています。我々は、GPT-4oやDeepSeek-V3などの最先端のLLM、およびo1やDeepSeek-R1といった推論に特化したモデルをCipherBankで評価しました。その結果、汎用チャットLLMと推論特化LLMの間だけでなく、古典的な暗号解読タスクに適用された現在の推論特化モデルの性能にも大きなギャップがあることが明らかになり、これらのモデルが暗号化されたデータを理解し操作する際に直面する課題が浮き彫りになりました。詳細な分析とエラー調査を通じて、暗号推論におけるLLMの限界と改善の可能性を示すいくつかの重要な観察結果を提供します。これらの発見は、LLMの推論能力の継続的な進化の必要性を強調しています。
English
Large language models (LLMs) have demonstrated remarkable capabilities,
especially the recent advancements in reasoning, such as o1 and o3, pushing the
boundaries of AI. Despite these impressive achievements in mathematics and
coding, the reasoning abilities of LLMs in domains requiring cryptographic
expertise remain underexplored. In this paper, we introduce CipherBank, a
comprehensive benchmark designed to evaluate the reasoning capabilities of LLMs
in cryptographic decryption tasks. CipherBank comprises 2,358 meticulously
crafted problems, covering 262 unique plaintexts across 5 domains and 14
subdomains, with a focus on privacy-sensitive and real-world scenarios that
necessitate encryption. From a cryptographic perspective, CipherBank
incorporates 3 major categories of encryption methods, spanning 9 distinct
algorithms, ranging from classical ciphers to custom cryptographic techniques.
We evaluate state-of-the-art LLMs on CipherBank, e.g., GPT-4o, DeepSeek-V3, and
cutting-edge reasoning-focused models such as o1 and DeepSeek-R1. Our results
reveal significant gaps in reasoning abilities not only between general-purpose
chat LLMs and reasoning-focused LLMs but also in the performance of current
reasoning-focused models when applied to classical cryptographic decryption
tasks, highlighting the challenges these models face in understanding and
manipulating encrypted data. Through detailed analysis and error
investigations, we provide several key observations that shed light on the
limitations and potential improvement areas for LLMs in cryptographic
reasoning. These findings underscore the need for continuous advancements in
LLM reasoning capabilities.Summary
AI-Generated Summary