Avaliação de Modelos de Linguagem para Matemática por meio de Interações

Resumo

A metodologia padrão de avaliação de grandes modelos de linguagem (LLMs) com base em pares estáticos de entradas e saídas é insuficiente para o desenvolvimento de assistentes: esse tipo de avaliação não leva em consideração o elemento interativo essencial em sua implantação e, portanto, limita nossa compreensão das capacidades dos modelos de linguagem. Apresentamos o CheckMate, uma plataforma protótipo adaptável para humanos interagirem e avaliarem LLMs. Realizamos um estudo com o CheckMate para avaliar três modelos de linguagem (InstructGPT, ChatGPT e GPT-4) como assistentes na prova de matemática de nível universitário, com um grupo misto de participantes, desde estudantes de graduação até professores de matemática. Disponibilizamos o conjunto de dados resultante de interações e avaliações, o MathConverse. Ao analisar o MathConverse, derivamos uma taxonomia preliminar de comportamentos humanos e descobrimos que, apesar de uma correlação geralmente positiva, há casos notáveis de divergência entre a correção e a percepção de utilidade nas gerações dos LLMs, entre outros achados. Além disso, identificamos cenários úteis e problemas existentes do GPT-4 no raciocínio matemático por meio de uma série de estudos de caso contribuídos por matemáticos especialistas. Concluímos com insights práticos para profissionais de aprendizado de máquina e matemáticos: modelos que comunicam incerteza, respondem bem a correções do usuário, são mais interpretáveis e concisos podem constituir melhores assistentes; a avaliação interativa é uma maneira promissora de explorar continuamente a capacidade desses modelos; os humanos devem estar cientes da falibilidade algébrica dos modelos de linguagem e, por isso, discernir onde eles devem ser usados.

English

The standard methodology of evaluating large language models (LLMs) based on static pairs of inputs and outputs is insufficient for developing assistants: this kind of assessments fails to take into account the essential interactive element in their deployment, and therefore limits how we understand language model capabilities. We introduce CheckMate, an adaptable prototype platform for humans to interact with and evaluate LLMs. We conduct a study with CheckMate to evaluate three language models~(InstructGPT, ChatGPT, and GPT-4) as assistants in proving undergraduate-level mathematics, with a mixed cohort of participants from undergraduate students to professors of mathematics. We release the resulting interaction and rating dataset, MathConverse. By analysing MathConverse, we derive a preliminary taxonomy of human behaviours and uncover that despite a generally positive correlation, there are notable instances of divergence between correctness and perceived helpfulness in LLM generations, amongst other findings. Further, we identify useful scenarios and existing issues of GPT-4 in mathematical reasoning through a series of case studies contributed by expert mathematicians. We conclude with actionable takeaways for ML practitioners and mathematicians: models which communicate uncertainty, respond well to user corrections, are more interpretable and concise may constitute better assistants; interactive evaluation is a promising way to continually navigate the capability of these models; humans should be aware of language models' algebraic fallibility, and for that reason discern where they should be used.

Avaliação de Modelos de Linguagem para Matemática por meio de Interações

Evaluating Language Models for Mathematics through Interactions

Resumo

Support