Como Fazer Seu Modelo de Linguagem Gerar Problemas Desafiadores para Avaliação
How to Get Your LLM to Generate Challenging Problems for Evaluation
February 20, 2025
Autores: Arkil Patel, Siva Reddy, Dzmitry Bahdanau
cs.AI
Resumo
O ritmo de evolução dos Modelos de Linguagem de Grande Escala (LLMs) exige novas abordagens para avaliações rigorosas e abrangentes. A anotação humana tradicional torna-se cada vez mais impraticável devido às complexidades e custos envolvidos na geração de problemas desafiadores e de alta qualidade. Neste trabalho, apresentamos o CHASE, um framework unificado para gerar sinteticamente problemas desafiadores usando LLMs sem envolvimento humano. Para uma determinada tarefa, nossa abordagem constrói um problema difícil de maneira ascendente, a partir de componentes mais simples. Além disso, nosso framework decompõe o processo de geração em sub-tarefas independentemente verificáveis, garantindo assim um alto nível de qualidade e correção. Implementamos o CHASE para criar benchmarks de avaliação em três domínios diversos: (1) questionamento baseado em documentos, (2) conclusão de código em nível de repositório e (3) raciocínio matemático. O desempenho dos LLMs de última geração nesses benchmarks sintéticos varia entre 40-60% de precisão, demonstrando assim a eficácia do nosso framework na geração de problemas desafiadores. Disponibilizamos publicamente nossos benchmarks e código.
English
The pace of evolution of Large Language Models (LLMs) necessitates new
approaches for rigorous and comprehensive evaluation. Traditional human
annotation is increasingly impracticable due to the complexities and costs
involved in generating high-quality, challenging problems. In this work, we
introduce CHASE, a unified framework to synthetically generate challenging
problems using LLMs without human involvement. For a given task, our approach
builds a hard problem in a bottom-up manner from simpler components. Moreover,
our framework decomposes the generation process into independently verifiable
sub-tasks, thereby ensuring a high level of quality and correctness. We
implement CHASE to create evaluation benchmarks across three diverse domains:
(1) document-based question answering, (2) repository-level code completion,
and (3) math reasoning. The performance of state-of-the-art LLMs on these
synthetic benchmarks lies in the range of 40-60% accuracy, thereby
demonstrating the effectiveness of our framework at generating challenging
problems. We publicly release our benchmarks and code.Summary
AI-Generated Summary