Recitación sobre Razonamiento: ¿Cómo los Modelos de Lenguaje de Vanguardia Pueden Fallar en Problemas de Razonamiento de Nivel de Escuela Primaria?
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?
April 1, 2025
Autores: Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen
cs.AI
Resumen
La rápida escalada desde problemas de nivel de escuela primaria hasta desafíos de frontera en la dificultad de los benchmarks para LLM en los últimos años ha tejido un milagro para los investigadores, colocándonos a solo un paso de superar la inteligencia humana. Sin embargo, ¿proviene la notable capacidad de razonamiento de los LLM de una verdadera inteligencia según los estándares humanos, o simplemente están recitando soluciones observadas durante su entrenamiento a nivel de Internet? Para estudiar este problema, proponemos RoR-Bench, un benchmark novedoso y multimodal diseñado para detectar el comportamiento de recitación en LLM cuando se les plantean problemas de razonamiento simples pero con condiciones sutilmente modificadas, y realizamos un análisis empírico en nuestro benchmark. Sorprendentemente, descubrimos que los LLM de vanguardia existentes exhiben de manera unánime un comportamiento de recitación extremadamente severo; al cambiar una sola frase en la condición, modelos líderes como OpenAI-o1 y DeepSeek-R1 pueden sufrir una pérdida de rendimiento del 60% en problemas aritméticos y de razonamiento de nivel de escuela primaria. Estos hallazgos son una llamada de atención para la comunidad de LLM que nos obliga a reevaluar el verdadero nivel de inteligencia de los LLM de vanguardia.
English
The rapid escalation from elementary school-level to frontier problems of the
difficulty for LLM benchmarks in recent years have weaved a miracle for
researchers that we are only inches away from surpassing human intelligence.
However, is the LLMs' remarkable reasoning ability indeed comes from true
intelligence by human standards, or are they simply reciting solutions
witnessed during training at an Internet level? To study this problem, we
propose RoR-Bench, a novel, multi-modal benchmark for detecting LLM's
recitation behavior when asked simple reasoning problems but with conditions
subtly shifted, and conduct empirical analysis on our benchmark. Surprisingly,
we found existing cutting-edge LLMs unanimously exhibits extremely severe
recitation behavior; by changing one phrase in the condition, top models such
as OpenAI-o1 and DeepSeek-R1 can suffer 60% performance loss on elementary
school-level arithmetic and reasoning problems. Such findings are a wake-up
call to the LLM community that compels us to re-evaluate the true intelligence
level of cutting-edge LLMs.Summary
AI-Generated Summary