CipherBank: Исследование границ способностей языковых моделей к рассуждению через криптографические задачи
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges
April 27, 2025
Авторы: Yu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали впечатляющие возможности, особенно в последних достижениях в области рассуждений, таких как o1 и o3, расширяя границы искусственного интеллекта. Несмотря на эти впечатляющие успехи в математике и программировании, способности LLM к рассуждениям в областях, требующих криптографической экспертизы, остаются недостаточно изученными. В данной статье мы представляем CipherBank — всеобъемлющий бенчмарк, разработанный для оценки способностей LLM к рассуждениям в задачах криптографического дешифрования. CipherBank включает 2 358 тщательно составленных задач, охватывающих 262 уникальных открытых текста в 5 областях и 14 поддоменах, с акцентом на сценарии, связанные с конфиденциальностью и реальными ситуациями, требующими шифрования. С криптографической точки зрения, CipherBank включает 3 основные категории методов шифрования, охватывающих 9 различных алгоритмов, от классических шифров до пользовательских криптографических техник. Мы оцениваем современные LLM на CipherBank, такие как GPT-4o, DeepSeek-V3, а также передовые модели, ориентированные на рассуждения, такие как o1 и DeepSeek-R1. Наши результаты выявляют значительные пробелы в способностях к рассуждениям не только между универсальными чат-LLM и моделями, ориентированными на рассуждения, но и в производительности текущих моделей, ориентированных на рассуждения, при выполнении классических задач криптографического дешифрования, что подчеркивает трудности, с которыми сталкиваются эти модели при понимании и манипулировании зашифрованными данными. Благодаря детальному анализу и исследованию ошибок мы предоставляем несколько ключевых наблюдений, которые проливают свет на ограничения и потенциальные области улучшения для LLM в криптографических рассуждениях. Эти результаты подчеркивают необходимость постоянного совершенствования способностей LLM к рассуждениям.
English
Large language models (LLMs) have demonstrated remarkable capabilities,
especially the recent advancements in reasoning, such as o1 and o3, pushing the
boundaries of AI. Despite these impressive achievements in mathematics and
coding, the reasoning abilities of LLMs in domains requiring cryptographic
expertise remain underexplored. In this paper, we introduce CipherBank, a
comprehensive benchmark designed to evaluate the reasoning capabilities of LLMs
in cryptographic decryption tasks. CipherBank comprises 2,358 meticulously
crafted problems, covering 262 unique plaintexts across 5 domains and 14
subdomains, with a focus on privacy-sensitive and real-world scenarios that
necessitate encryption. From a cryptographic perspective, CipherBank
incorporates 3 major categories of encryption methods, spanning 9 distinct
algorithms, ranging from classical ciphers to custom cryptographic techniques.
We evaluate state-of-the-art LLMs on CipherBank, e.g., GPT-4o, DeepSeek-V3, and
cutting-edge reasoning-focused models such as o1 and DeepSeek-R1. Our results
reveal significant gaps in reasoning abilities not only between general-purpose
chat LLMs and reasoning-focused LLMs but also in the performance of current
reasoning-focused models when applied to classical cryptographic decryption
tasks, highlighting the challenges these models face in understanding and
manipulating encrypted data. Through detailed analysis and error
investigations, we provide several key observations that shed light on the
limitations and potential improvement areas for LLMs in cryptographic
reasoning. These findings underscore the need for continuous advancements in
LLM reasoning capabilities.Summary
AI-Generated Summary