Evaluación de Modelos de Lenguaje para Matemáticas mediante Interacciones
Evaluating Language Models for Mathematics through Interactions
June 2, 2023
Autores: Katherine M. Collins, Albert Q. Jiang, Simon Frieder, Lionel Wong, Miri Zilka, Umang Bhatt, Thomas Lukasiewicz, Yuhuai Wu, Joshua B. Tenenbaum, William Hart, Timothy Gowers, Wenda Li, Adrian Weller, Mateja Jamnik
cs.AI
Resumen
La metodología estándar de evaluación de modelos de lenguaje de gran escala (LLMs) basada en pares estáticos de entradas y salidas es insuficiente para desarrollar asistentes: este tipo de evaluaciones no tiene en cuenta el elemento interactivo esencial en su despliegue y, por lo tanto, limita nuestra comprensión de las capacidades de los modelos de lenguaje. Presentamos CheckMate, una plataforma prototipo adaptable para que los humanos interactúen y evalúen LLMs. Realizamos un estudio con CheckMate para evaluar tres modelos de lenguaje (InstructGPT, ChatGPT y GPT-4) como asistentes en la demostración de matemáticas a nivel universitario, con un grupo mixto de participantes que incluye desde estudiantes universitarios hasta profesores de matemáticas. Publicamos el conjunto de datos resultante de interacciones y calificaciones, MathConverse. Al analizar MathConverse, derivamos una taxonomía preliminar de comportamientos humanos y descubrimos que, a pesar de una correlación generalmente positiva, hay casos notables de divergencia entre la corrección y la utilidad percibida en las generaciones de LLMs, entre otros hallazgos. Además, identificamos escenarios útiles y problemas existentes de GPT-4 en el razonamiento matemático a través de una serie de estudios de caso aportados por expertos matemáticos. Concluimos con conclusiones prácticas para profesionales de ML y matemáticos: los modelos que comunican incertidumbre, responden bien a las correcciones del usuario, son más interpretables y concisos pueden constituir mejores asistentes; la evaluación interactiva es una forma prometedora de explorar continuamente la capacidad de estos modelos; los humanos deben ser conscientes de la falibilidad algebraica de los modelos de lenguaje y, por ello, discernir dónde deben ser utilizados.
English
The standard methodology of evaluating large language models (LLMs) based on
static pairs of inputs and outputs is insufficient for developing assistants:
this kind of assessments fails to take into account the essential interactive
element in their deployment, and therefore limits how we understand language
model capabilities. We introduce CheckMate, an adaptable prototype platform for
humans to interact with and evaluate LLMs. We conduct a study with CheckMate to
evaluate three language models~(InstructGPT, ChatGPT, and GPT-4) as assistants
in proving undergraduate-level mathematics, with a mixed cohort of participants
from undergraduate students to professors of mathematics. We release the
resulting interaction and rating dataset, MathConverse. By analysing
MathConverse, we derive a preliminary taxonomy of human behaviours and uncover
that despite a generally positive correlation, there are notable instances of
divergence between correctness and perceived helpfulness in LLM generations,
amongst other findings. Further, we identify useful scenarios and existing
issues of GPT-4 in mathematical reasoning through a series of case studies
contributed by expert mathematicians. We conclude with actionable takeaways for
ML practitioners and mathematicians: models which communicate uncertainty,
respond well to user corrections, are more interpretable and concise may
constitute better assistants; interactive evaluation is a promising way to
continually navigate the capability of these models; humans should be aware of
language models' algebraic fallibility, and for that reason discern where they
should be used.