ChatPaper.aiChatPaper

Recitatie boven Redeneren: Hoe Geavanceerde Taalmodellen Kunnen Falen op Redeneerproblemen op Basisschoolniveau?

Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?

April 1, 2025
Auteurs: Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen
cs.AI

Samenvatting

De snelle overgang van basisschoolniveau naar grensverleggende problemen in de moeilijkheidsgraad van LLM-benchmarks in recente jaren heeft een wonder geweven voor onderzoekers, waardoor we slechts op een haar na verwijderd zijn van het overtreffen van menselijke intelligentie. Maar komt de opmerkelijke redeneervaardigheid van LLM's daadwerkelijk voort uit echte intelligentie volgens menselijke maatstaven, of reciteren ze simpelweg oplossingen die ze tijdens hun training op internetniveau hebben gezien? Om dit probleem te bestuderen, stellen we RoR-Bench voor, een nieuwe, multimodale benchmark voor het detecteren van recitatiegedrag bij LLM's wanneer ze eenvoudige redeneerproblemen krijgen met subtiel verschoven voorwaarden, en voeren we empirische analyses uit op onze benchmark. Verrassend genoeg ontdekten we dat bestaande state-of-the-art LLM's unaniem extreem ernstig recitatiegedrag vertonen; door één zin in de voorwaarde te veranderen, kunnen topmodellen zoals OpenAI-o1 en DeepSeek-R1 een prestatieverlies van 60% lijden op reken- en redeneerproblemen van basisschoolniveau. Dergelijke bevindingen zijn een wake-upcall voor de LLM-gemeenschap die ons dwingt om het werkelijke intelligentieniveau van state-of-the-art LLM's opnieuw te evalueren.
English
The rapid escalation from elementary school-level to frontier problems of the difficulty for LLM benchmarks in recent years have weaved a miracle for researchers that we are only inches away from surpassing human intelligence. However, is the LLMs' remarkable reasoning ability indeed comes from true intelligence by human standards, or are they simply reciting solutions witnessed during training at an Internet level? To study this problem, we propose RoR-Bench, a novel, multi-modal benchmark for detecting LLM's recitation behavior when asked simple reasoning problems but with conditions subtly shifted, and conduct empirical analysis on our benchmark. Surprisingly, we found existing cutting-edge LLMs unanimously exhibits extremely severe recitation behavior; by changing one phrase in the condition, top models such as OpenAI-o1 and DeepSeek-R1 can suffer 60% performance loss on elementary school-level arithmetic and reasoning problems. Such findings are a wake-up call to the LLM community that compels us to re-evaluate the true intelligence level of cutting-edge LLMs.

Summary

AI-Generated Summary

PDF2115April 2, 2025