ChatPaper.aiChatPaper

사고의 환상: 문제 복잡성의 관점에서 추론 모델의 강점과 한계 이해에 대한 논평

Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

June 10, 2025
저자: C. Opus, A. Lawsen
cs.AI

초록

Shojaee 등(2025)은 대형 추론 모델(Large Reasoning Models, LRMs)이 특정 복잡성 임계값을 넘는 계획 퍼즐에서 "정확도 붕괴(accuracy collapse)" 현상을 보인다고 보고하였다. 본 연구에서는 그들의 연구 결과가 근본적인 추론 실패보다는 실험 설계의 한계를 주로 반영하고 있음을 입증한다. 우리의 분석은 세 가지 중요한 문제를 밝혀냈다: (1) 하노이의 탑(Tower of Hanoi) 실험에서 보고된 실패 지점들은 모델 출력 토큰 한계를 체계적으로 초과하며, 모델들은 이러한 제약을 출력에서 명시적으로 인지하고 있다; (2) 저자들의 자동화된 평가 프레임워크는 추론 실패와 실질적 제약을 구분하지 못해 모델 능력을 오분류하고 있다; (3) 가장 우려되는 점은, 강 건너기(River Crossing) 벤치마크에서 N > 5인 경우 보트 용량 부족으로 수학적으로 불가능한 사례가 포함되어 있음에도 불구하고, 모델들이 이러한 해결 불가능한 문제를 풀지 못했다는 이유로 실패로 평가되었다는 것이다. 이러한 실험적 오류를 통제하기 위해, 우리는 종합적인 이동 목록 대신 생성 함수를 요청하는 방식으로 실험을 재설계하였고, 여러 모델에 대한 예비 실험 결과 이전에 완전한 실패로 보고된 하노이의 탑 사례에서 높은 정확도를 보였다. 이러한 연구 결과는 AI 추론 능력을 평가할 때 신중한 실험 설계의 중요성을 강조한다.
English
Shojaee et al. (2025) report that Large Reasoning Models (LRMs) exhibit "accuracy collapse" on planning puzzles beyond certain complexity thresholds. We demonstrate that their findings primarily reflect experimental design limitations rather than fundamental reasoning failures. Our analysis reveals three critical issues: (1) Tower of Hanoi experiments systematically exceed model output token limits at reported failure points, with models explicitly acknowledging these constraints in their outputs; (2) The authors' automated evaluation framework fails to distinguish between reasoning failures and practical constraints, leading to misclassification of model capabilities; (3) Most concerningly, their River Crossing benchmarks include mathematically impossible instances for N > 5 due to insufficient boat capacity, yet models are scored as failures for not solving these unsolvable problems. When we control for these experimental artifacts, by requesting generating functions instead of exhaustive move lists, preliminary experiments across multiple models indicate high accuracy on Tower of Hanoi instances previously reported as complete failures. These findings highlight the importance of careful experimental design when evaluating AI reasoning capabilities.
PDF123June 13, 2025