Valutazione dei Modelli Linguistici per la Matematica attraverso le Interazioni
Evaluating Language Models for Mathematics through Interactions
June 2, 2023
Autori: Katherine M. Collins, Albert Q. Jiang, Simon Frieder, Lionel Wong, Miri Zilka, Umang Bhatt, Thomas Lukasiewicz, Yuhuai Wu, Joshua B. Tenenbaum, William Hart, Timothy Gowers, Wenda Li, Adrian Weller, Mateja Jamnik
cs.AI
Abstract
La metodologia standard di valutazione dei grandi modelli linguistici (LLM) basata su coppie statiche di input e output è insufficiente per lo sviluppo di assistenti: questo tipo di valutazioni non tiene conto dell'elemento interattivo essenziale nel loro utilizzo, limitando così la nostra comprensione delle capacità dei modelli linguistici. Introduciamo CheckMate, una piattaforma prototipo adattabile per l'interazione e la valutazione degli LLM da parte degli esseri umani. Abbiamo condotto uno studio con CheckMate per valutare tre modelli linguistici (InstructGPT, ChatGPT e GPT-4) come assistenti nella dimostrazione di matematica a livello universitario, con un gruppo misto di partecipanti che spaziava dagli studenti universitari ai professori di matematica. Rilasciamo il dataset risultante di interazioni e valutazioni, MathConverse. Analizzando MathConverse, abbiamo derivato una tassonomia preliminare dei comportamenti umani e scoperto che, nonostante una correlazione generalmente positiva, ci sono casi notevoli di divergenza tra correttezza e percezione di utilità nelle generazioni degli LLM, tra altri risultati. Inoltre, abbiamo identificato scenari utili e problemi esistenti di GPT-4 nel ragionamento matematico attraverso una serie di casi di studio contribuiti da matematici esperti. Concludiamo con suggerimenti pratici per i professionisti del machine learning e i matematici: i modelli che comunicano l'incertezza, rispondono bene alle correzioni degli utenti, sono più interpretabili e concisi possono costituire migliori assistenti; la valutazione interattiva è un modo promettente per esplorare continuamente le capacità di questi modelli; gli esseri umani dovrebbero essere consapevoli della fallibilità algebrica dei modelli linguistici e, per questo motivo, discernere dove dovrebbero essere utilizzati.
English
The standard methodology of evaluating large language models (LLMs) based on
static pairs of inputs and outputs is insufficient for developing assistants:
this kind of assessments fails to take into account the essential interactive
element in their deployment, and therefore limits how we understand language
model capabilities. We introduce CheckMate, an adaptable prototype platform for
humans to interact with and evaluate LLMs. We conduct a study with CheckMate to
evaluate three language models~(InstructGPT, ChatGPT, and GPT-4) as assistants
in proving undergraduate-level mathematics, with a mixed cohort of participants
from undergraduate students to professors of mathematics. We release the
resulting interaction and rating dataset, MathConverse. By analysing
MathConverse, we derive a preliminary taxonomy of human behaviours and uncover
that despite a generally positive correlation, there are notable instances of
divergence between correctness and perceived helpfulness in LLM generations,
amongst other findings. Further, we identify useful scenarios and existing
issues of GPT-4 in mathematical reasoning through a series of case studies
contributed by expert mathematicians. We conclude with actionable takeaways for
ML practitioners and mathematicians: models which communicate uncertainty,
respond well to user corrections, are more interpretable and concise may
constitute better assistants; interactive evaluation is a promising way to
continually navigate the capability of these models; humans should be aware of
language models' algebraic fallibility, and for that reason discern where they
should be used.