Come Far Generare al Tuo Modello Linguistico Problemi Complessi per la Valutazione
How to Get Your LLM to Generate Challenging Problems for Evaluation
February 20, 2025
Autori: Arkil Patel, Siva Reddy, Dzmitry Bahdanau
cs.AI
Abstract
Il ritmo di evoluzione dei Large Language Models (LLM) richiede nuovi approcci per una valutazione rigorosa e completa. L'annotazione umana tradizionale sta diventando sempre più impraticabile a causa delle complessità e dei costi legati alla generazione di problemi di alta qualità e impegnativi. In questo lavoro, introduciamo CHASE, un framework unificato per generare sinteticamente problemi complessi utilizzando i LLM senza il coinvolgimento umano. Per un determinato compito, il nostro approccio costruisce un problema difficile in modo bottom-up a partire da componenti più semplici. Inoltre, il nostro framework scompone il processo di generazione in sotto-task verificabili in modo indipendente, garantendo così un elevato livello di qualità e correttezza. Implementiamo CHASE per creare benchmark di valutazione in tre domini diversi: (1) question answering basato su documenti, (2) completamento di codice a livello di repository e (3) ragionamento matematico. Le prestazioni dei LLM più avanzati su questi benchmark sintetici si attestano in un intervallo di accuratezza del 40-60%, dimostrando così l'efficacia del nostro framework nella generazione di problemi complessi. Rilasciamo pubblicamente i nostri benchmark e il codice.
English
The pace of evolution of Large Language Models (LLMs) necessitates new
approaches for rigorous and comprehensive evaluation. Traditional human
annotation is increasingly impracticable due to the complexities and costs
involved in generating high-quality, challenging problems. In this work, we
introduce CHASE, a unified framework to synthetically generate challenging
problems using LLMs without human involvement. For a given task, our approach
builds a hard problem in a bottom-up manner from simpler components. Moreover,
our framework decomposes the generation process into independently verifiable
sub-tasks, thereby ensuring a high level of quality and correctness. We
implement CHASE to create evaluation benchmarks across three diverse domains:
(1) document-based question answering, (2) repository-level code completion,
and (3) math reasoning. The performance of state-of-the-art LLMs on these
synthetic benchmarks lies in the range of 40-60% accuracy, thereby
demonstrating the effectiveness of our framework at generating challenging
problems. We publicly release our benchmarks and code.Summary
AI-Generated Summary