CodeCriticBench: Ein ganzheitlicher Code-Kritik-Benchmark für große Sprachmodelle
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models
February 23, 2025
Autoren: Alexander Zhang, Marcus Dong, Jiaheng Liu, Wei Zhang, Yejie Wang, Jian Yang, Ge Zhang, Tianyu Liu, Zhongyuan Peng, Yingshui Tan, Yuanxing Zhang, Zhexu Wang, Weixun Wang, Yancheng He, Ken Deng, Wangchunshu Zhou, Wenhao Huang, Zhaoxiang Zhang
cs.AI
Zusammenfassung
Die Kritikfähigkeit von Large Language Models (LLMs) ist entscheidend für die Fähigkeit zum Argumentieren, die notwendige Vorschläge liefern kann (z. B. detaillierte Analyse und konstruktives Feedback). Daher hat die Bewertung der Kritikfähigkeit von LLMs große Aufmerksamkeit erregt, und es wurden mehrere Kritik-Benchmarks vorgeschlagen. Allerdings weisen bestehende Kritik-Benchmarks in der Regel folgende Einschränkungen auf: (1) Sie konzentrieren sich im Allgemeinen auf vielfältige Argumentationsaufgaben in allgemeinen Bereichen und bieten unzureichende Bewertung von Code-Aufgaben (z. B. nur die Code-Generierungsaufgabe abdecken), bei denen die Schwierigkeit der Abfragen relativ einfach ist (z. B. stammen die Code-Abfragen von CriticBench von Humaneval und MBPP). (2) Es mangelt an umfassender Bewertung aus verschiedenen Dimensionen. Um diese Einschränkungen zu adressieren, stellen wir einen ganzheitlichen Code-Kritik-Benchmark für LLMs namens CodeCriticBench vor. Speziell umfasst unser CodeCriticBench zwei gängige Code-Aufgaben (d. h. Code-Generierung und Code-QA) mit unterschiedlichen Schwierigkeiten. Darüber hinaus umfassen die Bewertungsprotokolle eine grundlegende Kritikbewertung und eine fortgeschrittene Kritikbewertung für verschiedene Merkmale, wobei fein abgestufte Bewertungslisten für fortgeschrittene Einstellungen gut gestaltet sind. Schließlich führen wir umfangreiche experimentelle Ergebnisse bestehender LLMs durch, die die Wirksamkeit von CodeCriticBench zeigen.
English
The critique capacity of Large Language Models (LLMs) is essential for
reasoning abilities, which can provide necessary suggestions (e.g., detailed
analysis and constructive feedback). Therefore, how to evaluate the critique
capacity of LLMs has drawn great attention and several critique benchmarks have
been proposed. However, existing critique benchmarks usually have the following
limitations: (1). Focusing on diverse reasoning tasks in general domains and
insufficient evaluation on code tasks (e.g., only covering code generation
task), where the difficulty of queries is relatively easy (e.g., the code
queries of CriticBench are from Humaneval and MBPP). (2). Lacking comprehensive
evaluation from different dimensions. To address these limitations, we
introduce a holistic code critique benchmark for LLMs called CodeCriticBench.
Specifically, our CodeCriticBench includes two mainstream code tasks (i.e.,
code generation and code QA) with different difficulties. Besides, the
evaluation protocols include basic critique evaluation and advanced critique
evaluation for different characteristics, where fine-grained evaluation
checklists are well-designed for advanced settings. Finally, we conduct
extensive experimental results of existing LLMs, which show the effectiveness
of CodeCriticBench.Summary
AI-Generated Summary