Valutazione dei Modelli Linguistici per la Matematica attraverso le Interazioni

Abstract

La metodologia standard di valutazione dei grandi modelli linguistici (LLM) basata su coppie statiche di input e output è insufficiente per lo sviluppo di assistenti: questo tipo di valutazioni non tiene conto dell'elemento interattivo essenziale nel loro utilizzo, limitando così la nostra comprensione delle capacità dei modelli linguistici. Introduciamo CheckMate, una piattaforma prototipo adattabile per l'interazione e la valutazione degli LLM da parte degli esseri umani. Abbiamo condotto uno studio con CheckMate per valutare tre modelli linguistici (InstructGPT, ChatGPT e GPT-4) come assistenti nella dimostrazione di matematica a livello universitario, con un gruppo misto di partecipanti che spaziava dagli studenti universitari ai professori di matematica. Rilasciamo il dataset risultante di interazioni e valutazioni, MathConverse. Analizzando MathConverse, abbiamo derivato una tassonomia preliminare dei comportamenti umani e scoperto che, nonostante una correlazione generalmente positiva, ci sono casi notevoli di divergenza tra correttezza e percezione di utilità nelle generazioni degli LLM, tra altri risultati. Inoltre, abbiamo identificato scenari utili e problemi esistenti di GPT-4 nel ragionamento matematico attraverso una serie di casi di studio contribuiti da matematici esperti. Concludiamo con suggerimenti pratici per i professionisti del machine learning e i matematici: i modelli che comunicano l'incertezza, rispondono bene alle correzioni degli utenti, sono più interpretabili e concisi possono costituire migliori assistenti; la valutazione interattiva è un modo promettente per esplorare continuamente le capacità di questi modelli; gli esseri umani dovrebbero essere consapevoli della fallibilità algebrica dei modelli linguistici e, per questo motivo, discernere dove dovrebbero essere utilizzati.

English

The standard methodology of evaluating large language models (LLMs) based on static pairs of inputs and outputs is insufficient for developing assistants: this kind of assessments fails to take into account the essential interactive element in their deployment, and therefore limits how we understand language model capabilities. We introduce CheckMate, an adaptable prototype platform for humans to interact with and evaluate LLMs. We conduct a study with CheckMate to evaluate three language models~(InstructGPT, ChatGPT, and GPT-4) as assistants in proving undergraduate-level mathematics, with a mixed cohort of participants from undergraduate students to professors of mathematics. We release the resulting interaction and rating dataset, MathConverse. By analysing MathConverse, we derive a preliminary taxonomy of human behaviours and uncover that despite a generally positive correlation, there are notable instances of divergence between correctness and perceived helpfulness in LLM generations, amongst other findings. Further, we identify useful scenarios and existing issues of GPT-4 in mathematical reasoning through a series of case studies contributed by expert mathematicians. We conclude with actionable takeaways for ML practitioners and mathematicians: models which communicate uncertainty, respond well to user corrections, are more interpretable and concise may constitute better assistants; interactive evaluation is a promising way to continually navigate the capability of these models; humans should be aware of language models' algebraic fallibility, and for that reason discern where they should be used.

Valutazione dei Modelli Linguistici per la Matematica attraverso le Interazioni

Evaluating Language Models for Mathematics through Interactions

Abstract

Support