Het evalueren van taalmodellen voor wiskunde via interacties

Samenvatting

De standaardmethodologie voor het evalueren van grote taalmodellen (LLM's) op basis van statische paren van invoer en uitvoer is onvoldoende voor het ontwikkelen van assistenten: dit soort evaluaties houdt geen rekening met het essentiële interactieve element in hun inzet, en beperkt daardoor ons begrip van de mogelijkheden van taalmodellen. We introduceren CheckMate, een aanpasbaar prototypeplatform waarmee mensen kunnen interageren met en LLM's kunnen evalueren. We voeren een studie uit met CheckMate om drie taalmodellen (InstructGPT, ChatGPT en GPT-4) te evalueren als assistenten bij het bewijzen van wiskunde op bachelorniveau, met een gemengde groep deelnemers variërend van bachelorstudenten tot wiskundeprofessoren. We publiceren de resulterende interactie- en beoordelingsdataset, MathConverse. Door MathConverse te analyseren, leiden we een voorlopige taxonomie af van menselijk gedrag en ontdekken we dat, ondanks een over het algemeen positieve correlatie, er opmerkelijke gevallen zijn van divergentie tussen correctheid en waargenomen behulpzaamheid in de generaties van LLM's, naast andere bevindingen. Verder identificeren we nuttige scenario's en bestaande problemen van GPT-4 in wiskundig redeneren door een reeks casestudies die zijn bijgedragen door expert-wiskundigen. We sluiten af met praktische aanbevelingen voor ML-beoefenaars en wiskundigen: modellen die onzekerheid communiceren, goed reageren op gebruikerscorrecties, meer interpreteerbaar en beknopt zijn, kunnen betere assistenten vormen; interactieve evaluatie is een veelbelovende manier om de mogelijkheden van deze modellen voortdurend te verkennen; mensen moeten zich bewust zijn van de algebraïsche feilbaarheid van taalmodellen, en daarom bepalen waar ze gebruikt moeten worden.

English

The standard methodology of evaluating large language models (LLMs) based on static pairs of inputs and outputs is insufficient for developing assistants: this kind of assessments fails to take into account the essential interactive element in their deployment, and therefore limits how we understand language model capabilities. We introduce CheckMate, an adaptable prototype platform for humans to interact with and evaluate LLMs. We conduct a study with CheckMate to evaluate three language models~(InstructGPT, ChatGPT, and GPT-4) as assistants in proving undergraduate-level mathematics, with a mixed cohort of participants from undergraduate students to professors of mathematics. We release the resulting interaction and rating dataset, MathConverse. By analysing MathConverse, we derive a preliminary taxonomy of human behaviours and uncover that despite a generally positive correlation, there are notable instances of divergence between correctness and perceived helpfulness in LLM generations, amongst other findings. Further, we identify useful scenarios and existing issues of GPT-4 in mathematical reasoning through a series of case studies contributed by expert mathematicians. We conclude with actionable takeaways for ML practitioners and mathematicians: models which communicate uncertainty, respond well to user corrections, are more interpretable and concise may constitute better assistants; interactive evaluation is a promising way to continually navigate the capability of these models; humans should be aware of language models' algebraic fallibility, and for that reason discern where they should be used.

Het evalueren van taalmodellen voor wiskunde via interacties

Evaluating Language Models for Mathematics through Interactions

Samenvatting

Support