대형 언어 모델에서 추론과 성능의 관계 -- o3(mini)는 더 오래가 아니라 더 깊이 생각한다
The Relationship Between Reasoning and Performance in Large Language Models -- o3 (mini) Thinks Harder, Not Longer
February 21, 2025
저자: Marthe Ballon, Andres Algaba, Vincent Ginis
cs.AI
초록
대형 언어 모델은 사고의 연쇄(chain-of-thought)와 테스트 시간 계산 확장을 활용하여 수학적 추론에서 놀라운 진전을 보여주었습니다. 그러나 추론 토큰 사용과 정확도 향상 간의 상호작용에 대해 많은 미해결 질문들이 남아 있습니다. 특히, 세대별 모델을 비교할 때, 성능 향상이 더 긴 추론 연쇄에서 비롯된 것인지 아니면 더 효율적인 추론에서 비롯된 것인지 명확하지 않습니다. 우리는 Omni-MATH 벤치마크에서 o1-mini와 o3-mini 변형 간의 사고의 연쇄 길이를 체계적으로 분석하여, o3-mini (m)이 o1-mini보다 더 긴 추론 연쇄를 요구하지 않으면서도 우수한 정확도를 달성함을 발견했습니다. 더욱이, 모든 모델과 계산 설정에서 질문의 난이도를 통제하더라도 추론 연쇄가 길어질수록 정확도가 일반적으로 감소함을 보여줍니다. 이 정확도 하락은 더 숙련된 모델에서 상대적으로 작게 나타나며, 이는 새로운 세대의 추론 모델이 테스트 시간 계산을 더 효과적으로 사용함을 시사합니다. 마지막으로, o3-mini (h)가 o3-mini (m)에 비해 미미한 정확도 향상을 달성하지만, 이는 o3-mini (m)이 이미 해결할 수 있는 문제를 포함해 모든 문제에 상당히 더 많은 추론 토큰을 할당함으로써 이루어진다는 점을 강조합니다. 이러한 발견들은 모델 능력과 추론 길이 간의 관계에 대한 새로운 통찰을 제공하며, 효율성, 확장성 및 평가 방법론에 대한 함의를 가지고 있습니다.
English
Large language models have demonstrated remarkable progress in mathematical
reasoning, leveraging chain-of-thought and test-time compute scaling. However,
many open questions remain regarding the interplay between reasoning token
usage and accuracy gains. In particular, when comparing models across
generations, it is unclear whether improved performance results from longer
reasoning chains or more efficient reasoning. We systematically analyze
chain-of-thought length across o1-mini and o3-mini variants on the Omni-MATH
benchmark, finding that o3-mini (m) achieves superior accuracy without
requiring longer reasoning chains than o1-mini. Moreover, we show that accuracy
generally declines as reasoning chains grow across all models and compute
settings, even when controlling for difficulty of the questions. This accuracy
drop is significantly smaller in more proficient models, suggesting that new
generations of reasoning models use test-time compute more effectively.
Finally, we highlight that while o3-mini (h) achieves a marginal accuracy gain
over o3-mini (m), it does so by allocating substantially more reasoning tokens
across all problems, even the ones that o3-mini (m) can already solve. These
findings provide new insights into the relationship between model capability
and reasoning length, with implications for efficiency, scaling, and evaluation
methodologies.Summary
AI-Generated Summary