ChatPaper.aiChatPaper

CipherBank: Explorando os Limites das Capacidades de Raciocínio de LLMs por meio de Desafios de Criptografia

CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges

April 27, 2025
Autores: Yu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis, especialmente com os recentes avanços em raciocínio, como o1 e o3, que estão expandindo os limites da IA. Apesar dessas conquistas impressionantes em matemática e codificação, as habilidades de raciocínio dos LLMs em domínios que exigem expertise criptográfica permanecem pouco exploradas. Neste artigo, apresentamos o CipherBank, um benchmark abrangente projetado para avaliar as capacidades de raciocínio dos LLMs em tarefas de descriptografia criptográfica. O CipherBank é composto por 2.358 problemas meticulosamente elaborados, abrangendo 262 textos claros únicos em 5 domínios e 14 subdomínios, com foco em cenários sensíveis à privacidade e do mundo real que exigem criptografia. Do ponto de vista criptográfico, o CipherBank incorpora 3 grandes categorias de métodos de criptografia, abrangendo 9 algoritmos distintos, desde cifras clássicas até técnicas criptográficas personalizadas. Avaliamos LLMs de última geração no CipherBank, como GPT-4o, DeepSeek-V3, e modelos focados em raciocínio de ponta, como o1 e DeepSeek-R1. Nossos resultados revelam lacunas significativas nas habilidades de raciocínio, não apenas entre LLMs de chat de propósito geral e LLMs focados em raciocínio, mas também no desempenho dos modelos atuais focados em raciocínio quando aplicados a tarefas clássicas de descriptografia criptográfica, destacando os desafios que esses modelos enfrentam ao compreender e manipular dados criptografados. Por meio de análises detalhadas e investigações de erros, fornecemos várias observações-chave que lançam luz sobre as limitações e áreas potenciais de melhoria para LLMs no raciocínio criptográfico. Essas descobertas ressaltam a necessidade de avanços contínuos nas capacidades de raciocínio dos LLMs.
English
Large language models (LLMs) have demonstrated remarkable capabilities, especially the recent advancements in reasoning, such as o1 and o3, pushing the boundaries of AI. Despite these impressive achievements in mathematics and coding, the reasoning abilities of LLMs in domains requiring cryptographic expertise remain underexplored. In this paper, we introduce CipherBank, a comprehensive benchmark designed to evaluate the reasoning capabilities of LLMs in cryptographic decryption tasks. CipherBank comprises 2,358 meticulously crafted problems, covering 262 unique plaintexts across 5 domains and 14 subdomains, with a focus on privacy-sensitive and real-world scenarios that necessitate encryption. From a cryptographic perspective, CipherBank incorporates 3 major categories of encryption methods, spanning 9 distinct algorithms, ranging from classical ciphers to custom cryptographic techniques. We evaluate state-of-the-art LLMs on CipherBank, e.g., GPT-4o, DeepSeek-V3, and cutting-edge reasoning-focused models such as o1 and DeepSeek-R1. Our results reveal significant gaps in reasoning abilities not only between general-purpose chat LLMs and reasoning-focused LLMs but also in the performance of current reasoning-focused models when applied to classical cryptographic decryption tasks, highlighting the challenges these models face in understanding and manipulating encrypted data. Through detailed analysis and error investigations, we provide several key observations that shed light on the limitations and potential improvement areas for LLMs in cryptographic reasoning. These findings underscore the need for continuous advancements in LLM reasoning capabilities.
PDF174April 29, 2025