Комментарий к статье "Иллюзия мышления: понимание сильных сторон и ограничений моделей рассуждений через призму сложности задач"

Аннотация

Shojaee et al. (2025) сообщают, что крупные модели рассуждений (LRMs) демонстрируют «коллапс точности» на задачах планирования, превышающих определённые пороги сложности. Мы показываем, что их результаты в основном отражают ограничения экспериментального дизайна, а не фундаментальные сбои в рассуждениях. Наш анализ выявляет три ключевые проблемы: (1) эксперименты с задачей «Ханойская башня» систематически превышают ограничения на количество выходных токенов моделей в точках, указанных как сбои, причём модели явно признают эти ограничения в своих выводах; (2) автоматизированная система оценки авторов не различает сбои в рассуждениях и практические ограничения, что приводит к ошибочной классификации возможностей моделей; (3) что наиболее тревожно, их тесты на задачу «Переправа через реку» включают математически невозможные случаи для N > 5 из-за недостаточной вместимости лодки, однако модели оцениваются как сбои за нерешение этих нерешаемых задач. Когда мы контролируем эти экспериментальные артефакты, запрашивая генерацию функций вместо исчерпывающих списков ходов, предварительные эксперименты на нескольких моделях показывают высокую точность на задачах «Ханойской башни», ранее описанных как полные сбои. Эти результаты подчеркивают важность тщательного экспериментального дизайна при оценке способностей ИИ к рассуждениям.

English

Shojaee et al. (2025) report that Large Reasoning Models (LRMs) exhibit "accuracy collapse" on planning puzzles beyond certain complexity thresholds. We demonstrate that their findings primarily reflect experimental design limitations rather than fundamental reasoning failures. Our analysis reveals three critical issues: (1) Tower of Hanoi experiments systematically exceed model output token limits at reported failure points, with models explicitly acknowledging these constraints in their outputs; (2) The authors' automated evaluation framework fails to distinguish between reasoning failures and practical constraints, leading to misclassification of model capabilities; (3) Most concerningly, their River Crossing benchmarks include mathematically impossible instances for N > 5 due to insufficient boat capacity, yet models are scored as failures for not solving these unsolvable problems. When we control for these experimental artifacts, by requesting generating functions instead of exhaustive move lists, preliminary experiments across multiple models indicate high accuracy on Tower of Hanoi instances previously reported as complete failures. These findings highlight the importance of careful experimental design when evaluating AI reasoning capabilities.

Комментарий к статье "Иллюзия мышления: понимание сильных сторон и ограничений моделей рассуждений через призму сложности задач"

Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

Аннотация

Support