Het evalueren van taalmodellen voor wiskunde via interacties
Evaluating Language Models for Mathematics through Interactions
June 2, 2023
Auteurs: Katherine M. Collins, Albert Q. Jiang, Simon Frieder, Lionel Wong, Miri Zilka, Umang Bhatt, Thomas Lukasiewicz, Yuhuai Wu, Joshua B. Tenenbaum, William Hart, Timothy Gowers, Wenda Li, Adrian Weller, Mateja Jamnik
cs.AI
Samenvatting
De standaardmethodologie voor het evalueren van grote taalmodellen (LLM's) op basis van statische paren van invoer en uitvoer is onvoldoende voor het ontwikkelen van assistenten: dit soort evaluaties houdt geen rekening met het essentiële interactieve element in hun inzet, en beperkt daardoor ons begrip van de mogelijkheden van taalmodellen. We introduceren CheckMate, een aanpasbaar prototypeplatform waarmee mensen kunnen interageren met en LLM's kunnen evalueren. We voeren een studie uit met CheckMate om drie taalmodellen (InstructGPT, ChatGPT en GPT-4) te evalueren als assistenten bij het bewijzen van wiskunde op bachelorniveau, met een gemengde groep deelnemers variërend van bachelorstudenten tot wiskundeprofessoren. We publiceren de resulterende interactie- en beoordelingsdataset, MathConverse. Door MathConverse te analyseren, leiden we een voorlopige taxonomie af van menselijk gedrag en ontdekken we dat, ondanks een over het algemeen positieve correlatie, er opmerkelijke gevallen zijn van divergentie tussen correctheid en waargenomen behulpzaamheid in de generaties van LLM's, naast andere bevindingen. Verder identificeren we nuttige scenario's en bestaande problemen van GPT-4 in wiskundig redeneren door een reeks casestudies die zijn bijgedragen door expert-wiskundigen. We sluiten af met praktische aanbevelingen voor ML-beoefenaars en wiskundigen: modellen die onzekerheid communiceren, goed reageren op gebruikerscorrecties, meer interpreteerbaar en beknopt zijn, kunnen betere assistenten vormen; interactieve evaluatie is een veelbelovende manier om de mogelijkheden van deze modellen voortdurend te verkennen; mensen moeten zich bewust zijn van de algebraïsche feilbaarheid van taalmodellen, en daarom bepalen waar ze gebruikt moeten worden.
English
The standard methodology of evaluating large language models (LLMs) based on
static pairs of inputs and outputs is insufficient for developing assistants:
this kind of assessments fails to take into account the essential interactive
element in their deployment, and therefore limits how we understand language
model capabilities. We introduce CheckMate, an adaptable prototype platform for
humans to interact with and evaluate LLMs. We conduct a study with CheckMate to
evaluate three language models~(InstructGPT, ChatGPT, and GPT-4) as assistants
in proving undergraduate-level mathematics, with a mixed cohort of participants
from undergraduate students to professors of mathematics. We release the
resulting interaction and rating dataset, MathConverse. By analysing
MathConverse, we derive a preliminary taxonomy of human behaviours and uncover
that despite a generally positive correlation, there are notable instances of
divergence between correctness and perceived helpfulness in LLM generations,
amongst other findings. Further, we identify useful scenarios and existing
issues of GPT-4 in mathematical reasoning through a series of case studies
contributed by expert mathematicians. We conclude with actionable takeaways for
ML practitioners and mathematicians: models which communicate uncertainty,
respond well to user corrections, are more interpretable and concise may
constitute better assistants; interactive evaluation is a promising way to
continually navigate the capability of these models; humans should be aware of
language models' algebraic fallibility, and for that reason discern where they
should be used.