Niet alle LLM-redeneerders zijn gelijkwaardig.
Not All LLM Reasoners Are Created Equal
October 2, 2024
Auteurs: Arian Hosseini, Alessandro Sordoni, Daniel Toyama, Aaron Courville, Rishabh Agarwal
cs.AI
Samenvatting
We onderzoeken de diepte van de probleemoplossende capaciteiten van basisschoolwiskunde (GSM) van LLM's. Hiertoe evalueren we hun prestaties op paren van bestaande wiskundige vraagstukken, waarbij het antwoord op het tweede probleem afhankelijk is van het correct beantwoorden van het eerste probleem. Onze bevindingen tonen een significant redeneerverschil aan bij de meeste LLM's, namelijk een prestatieverschil tussen het oplossen van de samengestelde paren en het oplossen van elke vraag onafhankelijk. Dit verschil is meer uitgesproken bij kleinere, kostenefficiëntere en op wiskunde gespecialiseerde modellen. Bovendien hebben instructie-afstemmingsrecepten en codegeneratie verschillende effecten op LLM-formaten, terwijl finetuning op GSM kan leiden tot taakoverpassing. Onze analyse geeft aan dat grote redeneerverschillen niet worden veroorzaakt door lekken in de testset, maar door afleiding door aanvullende context en zwak redeneren in de tweede stap. Over het algemeen vertonen LLM's systematische verschillen in hun redeneervermogen, ondanks wat hun prestaties op standaard benchmarks aangeven.
English
We study the depth of grade-school math (GSM) problem-solving capabilities of
LLMs. To this end, we evaluate their performance on pairs of existing math word
problems together so that the answer to the second problem depends on correctly
answering the first problem. Our findings reveal a significant reasoning gap in
most LLMs, that is performance difference between solving the compositional
pairs and solving each question independently. This gap is more pronounced in
smaller, more cost-efficient, and math-specialized models. Moreover,
instruction-tuning recipes and code generation have varying effects across LLM
sizes, while finetuning on GSM can lead to task overfitting. Our analysis
indicates that large reasoning gaps are not because of test-set leakage, but
due to distraction from additional context and poor second-hop reasoning.
Overall, LLMs exhibit systematic differences in their reasoning abilities,
despite what their performance on standard benchmarks indicates.Summary
AI-Generated Summary