ChatPaper.aiChatPaper

Tous les raisonneurs LLM ne sont pas créés égaux.

Not All LLM Reasoners Are Created Equal

October 2, 2024
Auteurs: Arian Hosseini, Alessandro Sordoni, Daniel Toyama, Aaron Courville, Rishabh Agarwal
cs.AI

Résumé

Nous étudions la profondeur des capacités de résolution de problèmes de mathématiques de niveau primaire (GSM) des LLM. À cette fin, nous évaluons leurs performances sur des paires de problèmes mathématiques existants de manière à ce que la réponse au deuxième problème dépende de la réponse correcte au premier problème. Nos résultats révèlent un écart de raisonnement significatif dans la plupart des LLM, c'est-à-dire une différence de performance entre la résolution des paires compositionnelles et la résolution de chaque question indépendamment. Cet écart est plus prononcé dans les modèles plus petits, plus rentables et spécialisés en mathématiques. De plus, les recettes d'ajustement des instructions et la génération de code ont des effets variés selon les tailles des LLM, tandis que le réglage fin sur le GSM peut entraîner un surajustement de la tâche. Notre analyse indique que les grands écarts de raisonnement ne sont pas dus à des fuites de jeu de tests, mais à des distractions provenant de contextes supplémentaires et à un mauvais raisonnement de deuxième niveau. Dans l'ensemble, les LLM présentent des différences systématiques dans leurs capacités de raisonnement, malgré ce que leurs performances sur les benchmarks standard indiquent.
English
We study the depth of grade-school math (GSM) problem-solving capabilities of LLMs. To this end, we evaluate their performance on pairs of existing math word problems together so that the answer to the second problem depends on correctly answering the first problem. Our findings reveal a significant reasoning gap in most LLMs, that is performance difference between solving the compositional pairs and solving each question independently. This gap is more pronounced in smaller, more cost-efficient, and math-specialized models. Moreover, instruction-tuning recipes and code generation have varying effects across LLM sizes, while finetuning on GSM can lead to task overfitting. Our analysis indicates that large reasoning gaps are not because of test-set leakage, but due to distraction from additional context and poor second-hop reasoning. Overall, LLMs exhibit systematic differences in their reasoning abilities, despite what their performance on standard benchmarks indicates.

Summary

AI-Generated Summary

PDF292November 16, 2024