ChatPaper.aiChatPaper

HackerRank-ASTRA: 大規模言語モデルの正確性と一貫性を評価する:クロスドメインのマルチファイルプロジェクト問題

HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems

January 31, 2025
著者: Jun Xing, Mayur Bhatia, Sahil Phulwani, Darshan Suresh, Rafik Matta
cs.AI

要旨

大規模言語モデル(LLM)の実世界への適用可能性を評価することは、ソフトウェア開発タスクでの開発と使用に関する貴重な洞察を提供します。既存のベンチマークは、独立したコーディング問題や特定のライブラリに焦点を当てており、複数のファイルやプロジェクトベースのシナリオを見落とし、一貫性の厳密な評価が欠けています。HackerRank-ASTRAベンチマークは、実世界のシナリオを反映したプロジェクトベースのコーディング問題を導入しています。これは、32回(k = 32)の実行と中央値標準偏差を通じてモデルの一貫性を評価し、サブスキルの能力を評価するために分類レベルの分析を組み込んでいます。65の問題についての初期評価では、トップ3のモデルであるo1、o1-preview、およびClaude-3.5-Sonnet-1022が、平均スコアが75%であり、パフォーマンスに統計的に有意な違いがないことが示されました。特筆すべきは、Claude-3.5-Sonnet-1022が問題全体で最も高い一貫性を示し、低い変動性(SD = 0.0497)を持っており、他のモデルと比較して統計的に有意であり、実世界のソフトウェア開発タスクにおける信頼性を強調しています。
English
Evaluating the real-world applicability of large language models (LLMs) provides valuable insights for their development and use in software development tasks. Existing benchmarks often focus on standalone coding problems or specific libraries, overlooking multi-file, project-based scenarios and lacking a rigorous evaluation of consistency. The HackerRank-ASTRA Benchmark introduces project-based coding problems that mirror real-world scenarios. It evaluates model consistency through 32 runs (k = 32) and median standard deviation while incorporating taxonomy-level analysis to assess sub-skill capabilities. Initial evaluations on 65 problems show that the top three models -- o1, o1-preview, and Claude-3.5-Sonnet-1022 -- achieved comparable average scores of 75%, with no statistically significant differences in performance. Notably, Claude-3.5-Sonnet-1022 demonstrated the highest consistency across problems, with low variability (SD = 0.0497), which was statistically significant compared to other models, highlighting its reliability for real-world software development tasks.

Summary

AI-Generated Summary

PDF02February 6, 2025