Avaliação de Modelos de Linguagem para Matemática por meio de Interações
Evaluating Language Models for Mathematics through Interactions
June 2, 2023
Autores: Katherine M. Collins, Albert Q. Jiang, Simon Frieder, Lionel Wong, Miri Zilka, Umang Bhatt, Thomas Lukasiewicz, Yuhuai Wu, Joshua B. Tenenbaum, William Hart, Timothy Gowers, Wenda Li, Adrian Weller, Mateja Jamnik
cs.AI
Resumo
A metodologia padrão de avaliação de grandes modelos de linguagem (LLMs) com base em pares estáticos de entradas e saídas é insuficiente para o desenvolvimento de assistentes: esse tipo de avaliação não leva em consideração o elemento interativo essencial em sua implantação e, portanto, limita nossa compreensão das capacidades dos modelos de linguagem. Apresentamos o CheckMate, uma plataforma protótipo adaptável para humanos interagirem e avaliarem LLMs. Realizamos um estudo com o CheckMate para avaliar três modelos de linguagem (InstructGPT, ChatGPT e GPT-4) como assistentes na prova de matemática de nível universitário, com um grupo misto de participantes, desde estudantes de graduação até professores de matemática. Disponibilizamos o conjunto de dados resultante de interações e avaliações, o MathConverse. Ao analisar o MathConverse, derivamos uma taxonomia preliminar de comportamentos humanos e descobrimos que, apesar de uma correlação geralmente positiva, há casos notáveis de divergência entre a correção e a percepção de utilidade nas gerações dos LLMs, entre outros achados. Além disso, identificamos cenários úteis e problemas existentes do GPT-4 no raciocínio matemático por meio de uma série de estudos de caso contribuídos por matemáticos especialistas. Concluímos com insights práticos para profissionais de aprendizado de máquina e matemáticos: modelos que comunicam incerteza, respondem bem a correções do usuário, são mais interpretáveis e concisos podem constituir melhores assistentes; a avaliação interativa é uma maneira promissora de explorar continuamente a capacidade desses modelos; os humanos devem estar cientes da falibilidade algébrica dos modelos de linguagem e, por isso, discernir onde eles devem ser usados.
English
The standard methodology of evaluating large language models (LLMs) based on
static pairs of inputs and outputs is insufficient for developing assistants:
this kind of assessments fails to take into account the essential interactive
element in their deployment, and therefore limits how we understand language
model capabilities. We introduce CheckMate, an adaptable prototype platform for
humans to interact with and evaluate LLMs. We conduct a study with CheckMate to
evaluate three language models~(InstructGPT, ChatGPT, and GPT-4) as assistants
in proving undergraduate-level mathematics, with a mixed cohort of participants
from undergraduate students to professors of mathematics. We release the
resulting interaction and rating dataset, MathConverse. By analysing
MathConverse, we derive a preliminary taxonomy of human behaviours and uncover
that despite a generally positive correlation, there are notable instances of
divergence between correctness and perceived helpfulness in LLM generations,
amongst other findings. Further, we identify useful scenarios and existing
issues of GPT-4 in mathematical reasoning through a series of case studies
contributed by expert mathematicians. We conclude with actionable takeaways for
ML practitioners and mathematicians: models which communicate uncertainty,
respond well to user corrections, are more interpretable and concise may
constitute better assistants; interactive evaluation is a promising way to
continually navigate the capability of these models; humans should be aware of
language models' algebraic fallibility, and for that reason discern where they
should be used.