ChatPaper.aiChatPaper

Большие языковые модели и сбои в математическом рассуждении

Large Language Models and Mathematical Reasoning Failures

February 17, 2025
Авторы: Johan Boye, Birger Moell
cs.AI

Аннотация

Данная статья исследует математические способности крупных языковых моделей (LLM) с использованием 50 недавно созданных школьных текстовых задач уровня старших классов. В отличие от предыдущих исследований, сосредотачивающихся исключительно на правильности ответов, мы тщательно анализируем как конечные ответы, так и шаги решения, чтобы выявить неудачи в рассуждениях. Оценивая восемь передовых моделей, включая Mixtral, Llama, Gemini, GPT-4o и варианты OpenAI o1, мы обнаружили, что, хотя более новые модели (например, o3-mini, deepseek-r1) достигают более высокой точности, все модели допускают ошибки в пространственном мышлении, стратегическом планировании и арифметике, иногда давая правильные ответы за счет ошибочной логики. Распространенные виды неудач включают неподтвержденные предположения, чрезмерную зависимость от числовых закономерностей и трудности в переводе физического интуитивного понимания в математические шаги. Ручной анализ показывает, что модели испытывают затруднения с задачами, требующими многократного вывода или знаний о реальном мире, несмотря на широкие математические знания. Наши результаты подчеркивают важность оценки процессов рассуждения, а не только ответов, и предостерегают от переоценки профессионализма LLM в решении проблем. Исследование выявляет постоянные пробелы в обобщающих способностях LLM, подчеркивая необходимость целенаправленных улучшений в структурированных рассуждениях и обработке ограничений.
English
This paper investigates the mathematical reasoning capabilities of large language models (LLMs) using 50 newly constructed high-school-level word problems. Unlike prior studies that focus solely on answer correctness, we rigorously analyze both final answers and solution steps to identify reasoning failures. Evaluating eight state-of-the-art models - including Mixtral, Llama, Gemini, GPT-4o, and OpenAI's o1 variants - we find that while newer models (e.g., o3-mini, deepseek-r1) achieve higher accuracy, all models exhibit errors in spatial reasoning, strategic planning, and arithmetic, sometimes producing correct answers through flawed logic. Common failure modes include unwarranted assumptions, over-reliance on numerical patterns, and difficulty translating physical intuition into mathematical steps. Manual analysis reveals that models struggle with problems requiring multi-step deduction or real-world knowledge, despite possessing broad mathematical knowledge. Our results underscore the importance of evaluating reasoning processes, not just answers, and caution against overestimating LLMs' problem-solving proficiency. The study highlights persistent gaps in LLMs' generalization abilities, emphasizing the need for targeted improvements in structured reasoning and constraint handling.

Summary

AI-Generated Summary

PDF33February 18, 2025