ChatPaper.aiChatPaper

CipherBank: Erforschung der Grenzen von LLM-Schlussfolgerungsfähigkeiten durch Kryptografie-Herausforderungen

CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges

April 27, 2025
Autoren: Yu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten demonstriert, insbesondere die jüngsten Fortschritte im Bereich des logischen Denkens, wie o1 und o3, die die Grenzen der KI erweitern. Trotz dieser beeindruckenden Erfolge in Mathematik und Programmierung sind die Denkfähigkeiten von LLMs in Bereichen, die kryptografisches Fachwissen erfordern, noch weitgehend unerforscht. In diesem Artikel stellen wir CipherBank vor, einen umfassenden Benchmark, der entwickelt wurde, um die Denkfähigkeiten von LLMs bei kryptografischen Entschlüsselungsaufgaben zu bewerten. CipherBank umfasst 2.358 sorgfältig gestaltete Probleme, die 262 einzigartige Klartexte in 5 Domänen und 14 Subdomänen abdecken, mit einem Fokus auf privatsphäresensiblen und realweltlichen Szenarien, die Verschlüsselung erfordern. Aus kryptografischer Sicht integriert CipherBank 3 Hauptkategorien von Verschlüsselungsmethoden, die 9 verschiedene Algorithmen umfassen, von klassischen Chiffren bis hin zu benutzerdefinierten kryptografischen Techniken. Wir bewerten state-of-the-art LLMs auf CipherBank, z.B. GPT-4o, DeepSeek-V3 und fortschrittliche, auf logisches Denken spezialisierte Modelle wie o1 und DeepSeek-R1. Unsere Ergebnisse zeigen erhebliche Lücken in den Denkfähigkeiten nicht nur zwischen allgemeinen Chat-LLMs und auf logisches Denken spezialisierten LLMs, sondern auch in der Leistung aktueller, auf logisches Denken spezialisierter Modelle bei klassischen kryptografischen Entschlüsselungsaufgaben, was die Herausforderungen unterstreicht, die diese Modelle beim Verstehen und Manipulieren verschlüsselter Daten haben. Durch detaillierte Analysen und Fehleruntersuchungen liefern wir mehrere Schlüsselbeobachtungen, die die Grenzen und potenziellen Verbesserungsbereiche von LLMs im kryptografischen Denken beleuchten. Diese Erkenntnisse unterstreichen die Notwendigkeit kontinuierlicher Fortschritte in den Denkfähigkeiten von LLMs.
English
Large language models (LLMs) have demonstrated remarkable capabilities, especially the recent advancements in reasoning, such as o1 and o3, pushing the boundaries of AI. Despite these impressive achievements in mathematics and coding, the reasoning abilities of LLMs in domains requiring cryptographic expertise remain underexplored. In this paper, we introduce CipherBank, a comprehensive benchmark designed to evaluate the reasoning capabilities of LLMs in cryptographic decryption tasks. CipherBank comprises 2,358 meticulously crafted problems, covering 262 unique plaintexts across 5 domains and 14 subdomains, with a focus on privacy-sensitive and real-world scenarios that necessitate encryption. From a cryptographic perspective, CipherBank incorporates 3 major categories of encryption methods, spanning 9 distinct algorithms, ranging from classical ciphers to custom cryptographic techniques. We evaluate state-of-the-art LLMs on CipherBank, e.g., GPT-4o, DeepSeek-V3, and cutting-edge reasoning-focused models such as o1 and DeepSeek-R1. Our results reveal significant gaps in reasoning abilities not only between general-purpose chat LLMs and reasoning-focused LLMs but also in the performance of current reasoning-focused models when applied to classical cryptographic decryption tasks, highlighting the challenges these models face in understanding and manipulating encrypted data. Through detailed analysis and error investigations, we provide several key observations that shed light on the limitations and potential improvement areas for LLMs in cryptographic reasoning. These findings underscore the need for continuous advancements in LLM reasoning capabilities.

Summary

AI-Generated Summary

PDF144April 29, 2025