Оценка языковых моделей для математики посредством взаимодействий
Evaluating Language Models for Mathematics through Interactions
June 2, 2023
Авторы: Katherine M. Collins, Albert Q. Jiang, Simon Frieder, Lionel Wong, Miri Zilka, Umang Bhatt, Thomas Lukasiewicz, Yuhuai Wu, Joshua B. Tenenbaum, William Hart, Timothy Gowers, Wenda Li, Adrian Weller, Mateja Jamnik
cs.AI
Аннотация
Стандартная методология оценки больших языковых моделей (LLM), основанная на статических парах входных и выходных данных, недостаточна для разработки ассистентов: такой подход не учитывает важный интерактивный элемент в их использовании и, следовательно, ограничивает наше понимание возможностей языковых моделей. Мы представляем CheckMate, адаптируемую прототипную платформу для взаимодействия людей с LLM и их оценки. Мы провели исследование с использованием CheckMate, чтобы оценить три языковые модели (InstructGPT, ChatGPT и GPT-4) в роли ассистентов при решении задач на уровне бакалавриата по математике, с участием смешанной группы участников — от студентов до профессоров математики. Мы публикуем полученный набор данных взаимодействий и оценок, MathConverse. Анализируя MathConverse, мы выводим предварительную таксономию человеческого поведения и обнаруживаем, что, несмотря на общую положительную корреляцию, существуют заметные случаи расхождения между корректностью и воспринимаемой полезностью в ответах LLM, среди других выводов. Кроме того, мы выявляем полезные сценарии и существующие проблемы GPT-4 в математических рассуждениях через серию кейсов, предоставленных экспертами-математиками. Мы завершаем практическими рекомендациями для специалистов по машинному обучению и математиков: модели, которые сообщают о неопределенности, хорошо реагируют на исправления пользователей, более интерпретируемы и лаконичны, могут быть лучшими ассистентами; интерактивная оценка — перспективный способ постоянно исследовать возможности этих моделей; людям следует осознавать алгебраическую уязвимость языковых моделей и, исходя из этого, определять, где их следует использовать.
English
The standard methodology of evaluating large language models (LLMs) based on
static pairs of inputs and outputs is insufficient for developing assistants:
this kind of assessments fails to take into account the essential interactive
element in their deployment, and therefore limits how we understand language
model capabilities. We introduce CheckMate, an adaptable prototype platform for
humans to interact with and evaluate LLMs. We conduct a study with CheckMate to
evaluate three language models~(InstructGPT, ChatGPT, and GPT-4) as assistants
in proving undergraduate-level mathematics, with a mixed cohort of participants
from undergraduate students to professors of mathematics. We release the
resulting interaction and rating dataset, MathConverse. By analysing
MathConverse, we derive a preliminary taxonomy of human behaviours and uncover
that despite a generally positive correlation, there are notable instances of
divergence between correctness and perceived helpfulness in LLM generations,
amongst other findings. Further, we identify useful scenarios and existing
issues of GPT-4 in mathematical reasoning through a series of case studies
contributed by expert mathematicians. We conclude with actionable takeaways for
ML practitioners and mathematicians: models which communicate uncertainty,
respond well to user corrections, are more interpretable and concise may
constitute better assistants; interactive evaluation is a promising way to
continually navigate the capability of these models; humans should be aware of
language models' algebraic fallibility, and for that reason discern where they
should be used.