ChatPaper.aiChatPaper

Évaluation des modèles de langage pour les mathématiques via les interactions

Evaluating Language Models for Mathematics through Interactions

June 2, 2023
Auteurs: Katherine M. Collins, Albert Q. Jiang, Simon Frieder, Lionel Wong, Miri Zilka, Umang Bhatt, Thomas Lukasiewicz, Yuhuai Wu, Joshua B. Tenenbaum, William Hart, Timothy Gowers, Wenda Li, Adrian Weller, Mateja Jamnik
cs.AI

Résumé

La méthodologie standard d'évaluation des grands modèles de langage (LLM) basée sur des paires statiques d'entrées et de sorties est insuffisante pour développer des assistants : ce type d'évaluation ne prend pas en compte l'élément interactif essentiel dans leur déploiement, limitant ainsi notre compréhension des capacités des modèles de langage. Nous présentons CheckMate, une plateforme prototype adaptable permettant aux humains d'interagir avec et d'évaluer les LLM. Nous menons une étude avec CheckMate pour évaluer trois modèles de langage (InstructGPT, ChatGPT et GPT-4) en tant qu'assistants dans la démonstration de mathématiques de niveau universitaire, avec un groupe mixte de participants allant des étudiants de premier cycle aux professeurs de mathématiques. Nous publions le jeu de données d'interactions et d'évaluations résultant, MathConverse. En analysant MathConverse, nous établissons une taxonomie préliminaire des comportements humains et découvrons que, malgré une corrélation généralement positive, il existe des cas notables de divergence entre la justesse et l'utilité perçue des générations des LLM, parmi d'autres résultats. De plus, nous identifions des scénarios utiles et les problèmes existants de GPT-4 dans le raisonnement mathématique à travers une série d'études de cas contribuées par des mathématiciens experts. Nous concluons avec des recommandations pratiques pour les praticiens du machine learning et les mathématiciens : les modèles qui communiquent l'incertitude, répondent bien aux corrections des utilisateurs, sont plus interprétables et concis peuvent constituer de meilleurs assistants ; l'évaluation interactive est une voie prometteuse pour naviguer continuellement dans les capacités de ces modèles ; les humains devraient être conscients de la faillibilité algébrique des modèles de langage et, pour cette raison, discerner où ils devraient être utilisés.
English
The standard methodology of evaluating large language models (LLMs) based on static pairs of inputs and outputs is insufficient for developing assistants: this kind of assessments fails to take into account the essential interactive element in their deployment, and therefore limits how we understand language model capabilities. We introduce CheckMate, an adaptable prototype platform for humans to interact with and evaluate LLMs. We conduct a study with CheckMate to evaluate three language models~(InstructGPT, ChatGPT, and GPT-4) as assistants in proving undergraduate-level mathematics, with a mixed cohort of participants from undergraduate students to professors of mathematics. We release the resulting interaction and rating dataset, MathConverse. By analysing MathConverse, we derive a preliminary taxonomy of human behaviours and uncover that despite a generally positive correlation, there are notable instances of divergence between correctness and perceived helpfulness in LLM generations, amongst other findings. Further, we identify useful scenarios and existing issues of GPT-4 in mathematical reasoning through a series of case studies contributed by expert mathematicians. We conclude with actionable takeaways for ML practitioners and mathematicians: models which communicate uncertainty, respond well to user corrections, are more interpretable and concise may constitute better assistants; interactive evaluation is a promising way to continually navigate the capability of these models; humans should be aware of language models' algebraic fallibility, and for that reason discern where they should be used.
PDF20December 15, 2024