ChatPaper.aiChatPaper

Bewertung von Sprachmodellen für Mathematik durch Interaktionen

Evaluating Language Models for Mathematics through Interactions

June 2, 2023
Autoren: Katherine M. Collins, Albert Q. Jiang, Simon Frieder, Lionel Wong, Miri Zilka, Umang Bhatt, Thomas Lukasiewicz, Yuhuai Wu, Joshua B. Tenenbaum, William Hart, Timothy Gowers, Wenda Li, Adrian Weller, Mateja Jamnik
cs.AI

Zusammenfassung

Die Standardmethode zur Bewertung großer Sprachmodelle (LLMs) basierend auf statischen Paaren von Eingaben und Ausgaben ist unzureichend für die Entwicklung von Assistenten: Diese Art der Bewertung berücksichtigt nicht das wesentliche interaktive Element bei ihrem Einsatz und begrenzt somit unser Verständnis der Fähigkeiten von Sprachmodellen. Wir stellen CheckMate vor, eine anpassungsfähige Prototyp-Plattform, mit der Menschen interagieren und LLMs bewerten können. Wir führen eine Studie mit CheckMate durch, um drei Sprachmodelle (InstructGPT, ChatGPT und GPT-4) als Assistenten beim Beweis von Mathematik auf Bachelor-Niveau zu bewerten, mit einer gemischten Teilnehmergruppe von Bachelor-Studierenden bis hin zu Mathematikprofessoren. Wir veröffentlichen das daraus resultierende Interaktions- und Bewertungsdatenset MathConverse. Durch die Analyse von MathConverse leiten wir eine vorläufige Taxonomie menschlicher Verhaltensweisen ab und stellen fest, dass es trotz einer allgemein positiven Korrelation bemerkenswerte Fälle von Abweichungen zwischen Korrektheit und wahrgenommener Hilfsbereitschaft bei den Generationen von LLMs gibt, neben anderen Erkenntnissen. Darüber hinaus identifizieren wir nützliche Szenarien und bestehende Probleme von GPT-4 im mathematischen Denken durch eine Reihe von Fallstudien, die von erfahrenen Mathematikern beigetragen wurden. Wir schließen mit umsetzbaren Erkenntnissen für ML-Praktiker und Mathematiker: Modelle, die Unsicherheiten kommunizieren, gut auf Benutzerkorrekturen reagieren, interpretierbarer und prägnanter sind, können bessere Assistenten darstellen; interaktive Bewertung ist ein vielversprechender Weg, um die Fähigkeiten dieser Modelle kontinuierlich zu erkunden; Menschen sollten sich der algebraischen Fehlbarkeit von Sprachmodellen bewusst sein und daher entscheiden, wo sie eingesetzt werden sollten.
English
The standard methodology of evaluating large language models (LLMs) based on static pairs of inputs and outputs is insufficient for developing assistants: this kind of assessments fails to take into account the essential interactive element in their deployment, and therefore limits how we understand language model capabilities. We introduce CheckMate, an adaptable prototype platform for humans to interact with and evaluate LLMs. We conduct a study with CheckMate to evaluate three language models~(InstructGPT, ChatGPT, and GPT-4) as assistants in proving undergraduate-level mathematics, with a mixed cohort of participants from undergraduate students to professors of mathematics. We release the resulting interaction and rating dataset, MathConverse. By analysing MathConverse, we derive a preliminary taxonomy of human behaviours and uncover that despite a generally positive correlation, there are notable instances of divergence between correctness and perceived helpfulness in LLM generations, amongst other findings. Further, we identify useful scenarios and existing issues of GPT-4 in mathematical reasoning through a series of case studies contributed by expert mathematicians. We conclude with actionable takeaways for ML practitioners and mathematicians: models which communicate uncertainty, respond well to user corrections, are more interpretable and concise may constitute better assistants; interactive evaluation is a promising way to continually navigate the capability of these models; humans should be aware of language models' algebraic fallibility, and for that reason discern where they should be used.
PDF20December 15, 2024