Come Far Generare al Tuo Modello Linguistico Problemi Complessi per la Valutazione

Abstract

Il ritmo di evoluzione dei Large Language Models (LLM) richiede nuovi approcci per una valutazione rigorosa e completa. L'annotazione umana tradizionale sta diventando sempre più impraticabile a causa delle complessità e dei costi legati alla generazione di problemi di alta qualità e impegnativi. In questo lavoro, introduciamo CHASE, un framework unificato per generare sinteticamente problemi complessi utilizzando i LLM senza il coinvolgimento umano. Per un determinato compito, il nostro approccio costruisce un problema difficile in modo bottom-up a partire da componenti più semplici. Inoltre, il nostro framework scompone il processo di generazione in sotto-task verificabili in modo indipendente, garantendo così un elevato livello di qualità e correttezza. Implementiamo CHASE per creare benchmark di valutazione in tre domini diversi: (1) question answering basato su documenti, (2) completamento di codice a livello di repository e (3) ragionamento matematico. Le prestazioni dei LLM più avanzati su questi benchmark sintetici si attestano in un intervallo di accuratezza del 40-60%, dimostrando così l'efficacia del nostro framework nella generazione di problemi complessi. Rilasciamo pubblicamente i nostri benchmark e il codice.

English

The pace of evolution of Large Language Models (LLMs) necessitates new approaches for rigorous and comprehensive evaluation. Traditional human annotation is increasingly impracticable due to the complexities and costs involved in generating high-quality, challenging problems. In this work, we introduce CHASE, a unified framework to synthetically generate challenging problems using LLMs without human involvement. For a given task, our approach builds a hard problem in a bottom-up manner from simpler components. Moreover, our framework decomposes the generation process into independently verifiable sub-tasks, thereby ensuring a high level of quality and correctness. We implement CHASE to create evaluation benchmarks across three diverse domains: (1) document-based question answering, (2) repository-level code completion, and (3) math reasoning. The performance of state-of-the-art LLMs on these synthetic benchmarks lies in the range of 40-60% accuracy, thereby demonstrating the effectiveness of our framework at generating challenging problems. We publicly release our benchmarks and code.

Come Far Generare al Tuo Modello Linguistico Problemi Complessi per la Valutazione

How to Get Your LLM to Generate Challenging Problems for Evaluation

Abstract

Support