Como Fazer Seu Modelo de Linguagem Gerar Problemas Desafiadores para Avaliação

Resumo

O ritmo de evolução dos Modelos de Linguagem de Grande Escala (LLMs) exige novas abordagens para avaliações rigorosas e abrangentes. A anotação humana tradicional torna-se cada vez mais impraticável devido às complexidades e custos envolvidos na geração de problemas desafiadores e de alta qualidade. Neste trabalho, apresentamos o CHASE, um framework unificado para gerar sinteticamente problemas desafiadores usando LLMs sem envolvimento humano. Para uma determinada tarefa, nossa abordagem constrói um problema difícil de maneira ascendente, a partir de componentes mais simples. Além disso, nosso framework decompõe o processo de geração em sub-tarefas independentemente verificáveis, garantindo assim um alto nível de qualidade e correção. Implementamos o CHASE para criar benchmarks de avaliação em três domínios diversos: (1) questionamento baseado em documentos, (2) conclusão de código em nível de repositório e (3) raciocínio matemático. O desempenho dos LLMs de última geração nesses benchmarks sintéticos varia entre 40-60% de precisão, demonstrando assim a eficácia do nosso framework na geração de problemas desafiadores. Disponibilizamos publicamente nossos benchmarks e código.

English

The pace of evolution of Large Language Models (LLMs) necessitates new approaches for rigorous and comprehensive evaluation. Traditional human annotation is increasingly impracticable due to the complexities and costs involved in generating high-quality, challenging problems. In this work, we introduce CHASE, a unified framework to synthetically generate challenging problems using LLMs without human involvement. For a given task, our approach builds a hard problem in a bottom-up manner from simpler components. Moreover, our framework decomposes the generation process into independently verifiable sub-tasks, thereby ensuring a high level of quality and correctness. We implement CHASE to create evaluation benchmarks across three diverse domains: (1) document-based question answering, (2) repository-level code completion, and (3) math reasoning. The performance of state-of-the-art LLMs on these synthetic benchmarks lies in the range of 40-60% accuracy, thereby demonstrating the effectiveness of our framework at generating challenging problems. We publicly release our benchmarks and code.

Como Fazer Seu Modelo de Linguagem Gerar Problemas Desafiadores para Avaliação

How to Get Your LLM to Generate Challenging Problems for Evaluation

Resumo

Support