Evaluación de Modelos de Lenguaje para Matemáticas mediante Interacciones

Resumen

La metodología estándar de evaluación de modelos de lenguaje de gran escala (LLMs) basada en pares estáticos de entradas y salidas es insuficiente para desarrollar asistentes: este tipo de evaluaciones no tiene en cuenta el elemento interactivo esencial en su despliegue y, por lo tanto, limita nuestra comprensión de las capacidades de los modelos de lenguaje. Presentamos CheckMate, una plataforma prototipo adaptable para que los humanos interactúen y evalúen LLMs. Realizamos un estudio con CheckMate para evaluar tres modelos de lenguaje (InstructGPT, ChatGPT y GPT-4) como asistentes en la demostración de matemáticas a nivel universitario, con un grupo mixto de participantes que incluye desde estudiantes universitarios hasta profesores de matemáticas. Publicamos el conjunto de datos resultante de interacciones y calificaciones, MathConverse. Al analizar MathConverse, derivamos una taxonomía preliminar de comportamientos humanos y descubrimos que, a pesar de una correlación generalmente positiva, hay casos notables de divergencia entre la corrección y la utilidad percibida en las generaciones de LLMs, entre otros hallazgos. Además, identificamos escenarios útiles y problemas existentes de GPT-4 en el razonamiento matemático a través de una serie de estudios de caso aportados por expertos matemáticos. Concluimos con conclusiones prácticas para profesionales de ML y matemáticos: los modelos que comunican incertidumbre, responden bien a las correcciones del usuario, son más interpretables y concisos pueden constituir mejores asistentes; la evaluación interactiva es una forma prometedora de explorar continuamente la capacidad de estos modelos; los humanos deben ser conscientes de la falibilidad algebraica de los modelos de lenguaje y, por ello, discernir dónde deben ser utilizados.

English

The standard methodology of evaluating large language models (LLMs) based on static pairs of inputs and outputs is insufficient for developing assistants: this kind of assessments fails to take into account the essential interactive element in their deployment, and therefore limits how we understand language model capabilities. We introduce CheckMate, an adaptable prototype platform for humans to interact with and evaluate LLMs. We conduct a study with CheckMate to evaluate three language models~(InstructGPT, ChatGPT, and GPT-4) as assistants in proving undergraduate-level mathematics, with a mixed cohort of participants from undergraduate students to professors of mathematics. We release the resulting interaction and rating dataset, MathConverse. By analysing MathConverse, we derive a preliminary taxonomy of human behaviours and uncover that despite a generally positive correlation, there are notable instances of divergence between correctness and perceived helpfulness in LLM generations, amongst other findings. Further, we identify useful scenarios and existing issues of GPT-4 in mathematical reasoning through a series of case studies contributed by expert mathematicians. We conclude with actionable takeaways for ML practitioners and mathematicians: models which communicate uncertainty, respond well to user corrections, are more interpretable and concise may constitute better assistants; interactive evaluation is a promising way to continually navigate the capability of these models; humans should be aware of language models' algebraic fallibility, and for that reason discern where they should be used.

Evaluación de Modelos de Lenguaje para Matemáticas mediante Interacciones

Evaluating Language Models for Mathematics through Interactions

Resumen

Support