Повторение вместо рассуждения: Почему передовые языковые модели могут не справляться с задачами на уровне начальной школы?
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?
April 1, 2025
Авторы: Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen
cs.AI
Аннотация
Быстрый переход от задач уровня начальной школы к передовым проблемам сложности в бенчмарках для крупных языковых моделей (LLM) в последние годы сотворил чудо для исследователей, заставив поверить, что мы находимся в шаге от превосходства над человеческим интеллектом. Однако действительно ли выдающиеся способности LLM к рассуждению являются проявлением истинного интеллекта по человеческим меркам, или они просто воспроизводят решения, увиденные во время обучения на уровне интернета? Чтобы изучить эту проблему, мы предлагаем RoR-Bench — новый мультимодальный бенчмарк для выявления поведения LLM, связанного с воспроизведением, при решении простых задач на рассуждение, но с условиями, слегка измененными, и проводим эмпирический анализ на основе нашего бенчмарка. Удивительно, но мы обнаружили, что существующие передовые LLM единогласно демонстрируют крайне выраженное поведение воспроизведения: изменив одну фразу в условии, топовые модели, такие как OpenAI-o1 и DeepSeek-R1, могут потерять до 60% производительности на задачах уровня начальной школы по арифметике и логике. Такие результаты являются тревожным сигналом для сообщества LLM, заставляя нас пересмотреть истинный уровень интеллекта передовых языковых моделей.
English
The rapid escalation from elementary school-level to frontier problems of the
difficulty for LLM benchmarks in recent years have weaved a miracle for
researchers that we are only inches away from surpassing human intelligence.
However, is the LLMs' remarkable reasoning ability indeed comes from true
intelligence by human standards, or are they simply reciting solutions
witnessed during training at an Internet level? To study this problem, we
propose RoR-Bench, a novel, multi-modal benchmark for detecting LLM's
recitation behavior when asked simple reasoning problems but with conditions
subtly shifted, and conduct empirical analysis on our benchmark. Surprisingly,
we found existing cutting-edge LLMs unanimously exhibits extremely severe
recitation behavior; by changing one phrase in the condition, top models such
as OpenAI-o1 and DeepSeek-R1 can suffer 60% performance loss on elementary
school-level arithmetic and reasoning problems. Such findings are a wake-up
call to the LLM community that compels us to re-evaluate the true intelligence
level of cutting-edge LLMs.Summary
AI-Generated Summary