ChatPaper.aiChatPaper

HackerRank-ASTRA: Avaliando a Correção e Consistência de Modelos de Linguagem Grandes em problemas de projetos multi-arquivo de domínios cruzados.

HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems

January 31, 2025
Autores: Jun Xing, Mayur Bhatia, Sahil Phulwani, Darshan Suresh, Rafik Matta
cs.AI

Resumo

A avaliação da aplicabilidade do mundo real de grandes modelos de linguagem (LLMs) fornece insights valiosos para o seu desenvolvimento e uso em tarefas de desenvolvimento de software. Os benchmarks existentes frequentemente se concentram em problemas de codificação autônomos ou bibliotecas específicas, ignorando cenários baseados em projetos multi-arquivo e carecendo de uma avaliação rigorosa de consistência. O Benchmark HackerRank-ASTRA introduz problemas de codificação baseados em projetos que refletem cenários do mundo real. Ele avalia a consistência do modelo por meio de 32 execuções (k = 32) e desvio padrão mediano, ao incorporar análise em nível de taxonomia para avaliar as capacidades de sub-habilidades. Avaliações iniciais em 65 problemas mostram que os três principais modelos - o1, o1-preview e Claude-3.5-Sonnet-1022 - alcançaram pontuações médias comparáveis de 75%, sem diferenças estatisticamente significativas de desempenho. Notavelmente, Claude-3.5-Sonnet-1022 demonstrou a maior consistência entre os problemas, com baixa variabilidade (SD = 0.0497), o que foi estatisticamente significativo em comparação com outros modelos, destacando sua confiabilidade para tarefas de desenvolvimento de software do mundo real.
English
Evaluating the real-world applicability of large language models (LLMs) provides valuable insights for their development and use in software development tasks. Existing benchmarks often focus on standalone coding problems or specific libraries, overlooking multi-file, project-based scenarios and lacking a rigorous evaluation of consistency. The HackerRank-ASTRA Benchmark introduces project-based coding problems that mirror real-world scenarios. It evaluates model consistency through 32 runs (k = 32) and median standard deviation while incorporating taxonomy-level analysis to assess sub-skill capabilities. Initial evaluations on 65 problems show that the top three models -- o1, o1-preview, and Claude-3.5-Sonnet-1022 -- achieved comparable average scores of 75%, with no statistically significant differences in performance. Notably, Claude-3.5-Sonnet-1022 demonstrated the highest consistency across problems, with low variability (SD = 0.0497), which was statistically significant compared to other models, highlighting its reliability for real-world software development tasks.

Summary

AI-Generated Summary

PDF02February 6, 2025