ChatPaper.aiChatPaper

Rezitation statt Argumentation: Wie fortschrittliche Sprachmodelle bei Grundschulniveau-Reasoning-Problemen scheitern können

Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?

April 1, 2025
Autoren: Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen
cs.AI

Zusammenfassung

Die rasante Steigerung von Grundschulniveau zu den Grenzproblemen der Schwierigkeit bei LLM-Benchmarks in den letzten Jahren hat für Forscher ein Wunder gewoben, das uns nur noch wenige Zentimeter davon entfernt scheint, die menschliche Intelligenz zu übertreffen. Doch stammt die bemerkenswerte Fähigkeit der LLMs zum logischen Denken tatsächlich aus wahrer Intelligenz nach menschlichen Maßstäben, oder rezitieren sie lediglich Lösungen, die sie während des Trainings auf Internetebene gesehen haben? Um dieses Problem zu untersuchen, schlagen wir RoR-Bench vor, einen neuartigen, multimodalen Benchmark zur Erkennung des Rezitationsverhaltens von LLMs, wenn sie mit einfachen, aber subtil veränderten logischen Problemen konfrontiert werden, und führen eine empirische Analyse auf unserem Benchmark durch. Überraschenderweise stellten wir fest, dass bestehende Spitzen-LLMs einstimmig ein extrem starkes Rezitationsverhalten zeigen; durch die Änderung einer einzigen Phrase in der Bedingung können Top-Modelle wie OpenAI-o1 und DeepSeek-R1 eine Leistungseinbuße von 60 % bei arithmetischen und logischen Problemen auf Grundschulniveau erleiden. Solche Erkenntnisse sind ein Weckruf für die LLM-Community, der uns zwingt, das wahre Intelligenzniveau von Spitzen-LLMs neu zu bewerten.
English
The rapid escalation from elementary school-level to frontier problems of the difficulty for LLM benchmarks in recent years have weaved a miracle for researchers that we are only inches away from surpassing human intelligence. However, is the LLMs' remarkable reasoning ability indeed comes from true intelligence by human standards, or are they simply reciting solutions witnessed during training at an Internet level? To study this problem, we propose RoR-Bench, a novel, multi-modal benchmark for detecting LLM's recitation behavior when asked simple reasoning problems but with conditions subtly shifted, and conduct empirical analysis on our benchmark. Surprisingly, we found existing cutting-edge LLMs unanimously exhibits extremely severe recitation behavior; by changing one phrase in the condition, top models such as OpenAI-o1 and DeepSeek-R1 can suffer 60% performance loss on elementary school-level arithmetic and reasoning problems. Such findings are a wake-up call to the LLM community that compels us to re-evaluate the true intelligence level of cutting-edge LLMs.

Summary

AI-Generated Summary

PDF2115April 2, 2025