No todos los razonadores LLM son iguales.

Resumen

Estudiamos la profundidad de las capacidades de resolución de problemas de matemáticas de la escuela primaria (GSM) de los LLMs. Con este fin, evaluamos su rendimiento en pares de problemas matemáticos existentes de manera conjunta, de modo que la respuesta al segundo problema depende de responder correctamente al primer problema. Nuestros hallazgos revelan una brecha significativa en el razonamiento en la mayoría de los LLMs, es decir, una diferencia de rendimiento entre resolver los pares de problemas de forma compositiva y resolver cada pregunta de forma independiente. Esta brecha es más pronunciada en modelos más pequeños, más rentables y especializados en matemáticas. Además, las recetas de ajuste de instrucciones y la generación de código tienen efectos variables en función del tamaño de los LLMs, mientras que el ajuste fino en GSM puede llevar al sobreajuste de la tarea. Nuestro análisis indica que las grandes brechas de razonamiento no se deben a fugas en el conjunto de pruebas, sino a la distracción por el contexto adicional y al pobre razonamiento de segundo salto. En general, los LLMs muestran diferencias sistemáticas en sus habilidades de razonamiento, a pesar de lo que su rendimiento en los bancos de pruebas estándar indica.

English

We study the depth of grade-school math (GSM) problem-solving capabilities of LLMs. To this end, we evaluate their performance on pairs of existing math word problems together so that the answer to the second problem depends on correctly answering the first problem. Our findings reveal a significant reasoning gap in most LLMs, that is performance difference between solving the compositional pairs and solving each question independently. This gap is more pronounced in smaller, more cost-efficient, and math-specialized models. Moreover, instruction-tuning recipes and code generation have varying effects across LLM sizes, while finetuning on GSM can lead to task overfitting. Our analysis indicates that large reasoning gaps are not because of test-set leakage, but due to distraction from additional context and poor second-hop reasoning. Overall, LLMs exhibit systematic differences in their reasoning abilities, despite what their performance on standard benchmarks indicates.

No todos los razonadores LLM son iguales.

Not All LLM Reasoners Are Created Equal

Resumen

Support