HackerRank-ASTRA: Avaliando a Correção e Consistência de Modelos de Linguagem Grandes em problemas de projetos multi-arquivo de domínios cruzados.
HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems
January 31, 2025
Autores: Jun Xing, Mayur Bhatia, Sahil Phulwani, Darshan Suresh, Rafik Matta
cs.AI
Resumo
A avaliação da aplicabilidade do mundo real de grandes modelos de linguagem (LLMs) fornece insights valiosos para o seu desenvolvimento e uso em tarefas de desenvolvimento de software. Os benchmarks existentes frequentemente se concentram em problemas de codificação autônomos ou bibliotecas específicas, ignorando cenários baseados em projetos multi-arquivo e carecendo de uma avaliação rigorosa de consistência. O Benchmark HackerRank-ASTRA introduz problemas de codificação baseados em projetos que refletem cenários do mundo real. Ele avalia a consistência do modelo por meio de 32 execuções (k = 32) e desvio padrão mediano, ao incorporar análise em nível de taxonomia para avaliar as capacidades de sub-habilidades. Avaliações iniciais em 65 problemas mostram que os três principais modelos - o1, o1-preview e Claude-3.5-Sonnet-1022 - alcançaram pontuações médias comparáveis de 75%, sem diferenças estatisticamente significativas de desempenho. Notavelmente, Claude-3.5-Sonnet-1022 demonstrou a maior consistência entre os problemas, com baixa variabilidade (SD = 0.0497), o que foi estatisticamente significativo em comparação com outros modelos, destacando sua confiabilidade para tarefas de desenvolvimento de software do mundo real.
English
Evaluating the real-world applicability of large language models (LLMs)
provides valuable insights for their development and use in software
development tasks. Existing benchmarks often focus on standalone coding
problems or specific libraries, overlooking multi-file, project-based scenarios
and lacking a rigorous evaluation of consistency. The HackerRank-ASTRA
Benchmark introduces project-based coding problems that mirror real-world
scenarios. It evaluates model consistency through 32 runs (k = 32) and median
standard deviation while incorporating taxonomy-level analysis to assess
sub-skill capabilities. Initial evaluations on 65 problems show that the top
three models -- o1, o1-preview, and Claude-3.5-Sonnet-1022 -- achieved
comparable average scores of 75%, with no statistically significant differences
in performance. Notably, Claude-3.5-Sonnet-1022 demonstrated the highest
consistency across problems, with low variability (SD = 0.0497), which was
statistically significant compared to other models, highlighting its
reliability for real-world software development tasks.Summary
AI-Generated Summary