Récitation plutôt que raisonnement : Comment les modèles de langage de pointe peuvent échouer sur des problèmes de raisonnement de niveau école primaire ?
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?
April 1, 2025
Auteurs: Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen
cs.AI
Résumé
L'ascension rapide, depuis des problèmes de niveau école primaire jusqu'aux défis de pointe, en termes de difficulté pour les benchmarks des LLM ces dernières années, a tissé un miracle pour les chercheurs, nous laissant croire que nous ne sommes qu'à quelques pas de surpasser l'intelligence humaine. Cependant, cette remarquable capacité de raisonnement des LLM provient-elle véritablement d'une intelligence au sens humain, ou se contentent-ils simplement de réciter des solutions rencontrées lors de leur entraînement à l'échelle d'Internet ? Pour étudier cette question, nous proposons RoR-Bench, un nouveau benchmark multimodal conçu pour détecter le comportement de récitation des LLM lorsqu'ils sont confrontés à des problèmes de raisonnement simples mais dont les conditions sont subtilement modifiées, et nous menons une analyse empirique sur notre benchmark. Étonnamment, nous avons constaté que les LLM de pointe existants présentent unanimement un comportement de récitation extrêmement prononcé ; en modifiant une seule expression dans la condition, des modèles de premier plan tels qu'OpenAI-o1 et DeepSeek-R1 peuvent subir une perte de performance de 60 % sur des problèmes d'arithmétique et de raisonnement de niveau école primaire. Ces découvertes constituent un appel à la vigilance pour la communauté des LLM, nous obligeant à réévaluer le véritable niveau d'intelligence des LLM de pointe.
English
The rapid escalation from elementary school-level to frontier problems of the
difficulty for LLM benchmarks in recent years have weaved a miracle for
researchers that we are only inches away from surpassing human intelligence.
However, is the LLMs' remarkable reasoning ability indeed comes from true
intelligence by human standards, or are they simply reciting solutions
witnessed during training at an Internet level? To study this problem, we
propose RoR-Bench, a novel, multi-modal benchmark for detecting LLM's
recitation behavior when asked simple reasoning problems but with conditions
subtly shifted, and conduct empirical analysis on our benchmark. Surprisingly,
we found existing cutting-edge LLMs unanimously exhibits extremely severe
recitation behavior; by changing one phrase in the condition, top models such
as OpenAI-o1 and DeepSeek-R1 can suffer 60% performance loss on elementary
school-level arithmetic and reasoning problems. Such findings are a wake-up
call to the LLM community that compels us to re-evaluate the true intelligence
level of cutting-edge LLMs.Summary
AI-Generated Summary