SoS1: O1 및 R1 유사 추론 LLM은 제곱합(SOS) 솔버입니다.
SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers
February 27, 2025
저자: Kechen Li, Wenqi Zhu, Coralia Cartis, Tianbo Ji, Shiwei Liu
cs.AI
초록
대규모 언어 모델(LLM)은 다양한 작업에서 인간 수준의 숙련도를 달성했지만, 엄격한 수학적 문제 해결 능력은 여전히 해결해야 할 과제로 남아 있습니다. 본 연구에서는 기본적이면서도 계산적으로 다루기 어려운 문제, 즉 주어진 다변수 다항식이 음수가 아닌지 여부를 판단하는 문제를 조사합니다. 이 문제는 힐베르트의 17번째 문제와 밀접한 관련이 있으며, 전역 다항식 최적화에서 중요한 역할을 하며 다양한 분야에 응용됩니다. 먼저, 우리는 약 1,000개의 다항식으로 구성된 신중하게 선별된 데이터셋인 SoS-1K와 다섯 가지 점진적으로 어려워지는 기준에 기반한 전문가 설계 추론 지침을 소개합니다. 여러 최첨단 LLM을 평가한 결과, 구조화된 지침 없이는 모든 모델이 무작위 추측 기준인 50%보다 약간 높은 성능을 보였습니다. 그러나 고품질의 추론 지침은 정확도를 크게 향상시켜 성능을 최대 81%까지 끌어올렸습니다. 또한, SoS-1K에서 단 4시간 동안 미세 조정된 7B 모델인 SoS-7B는 671B DeepSeek-V3와 GPT-4o-mini를 정확도에서 능가하면서도 각각 필요한 계산 시간의 1.8%와 5%만을 요구했습니다. 우리의 연구 결과는 LLM이 수학적 추론의 한계를 넓히고 NP-난제 문제를 해결할 수 있는 잠재력을 강조합니다.
English
Large Language Models (LLMs) have achieved human-level proficiency across
diverse tasks, but their ability to perform rigorous mathematical problem
solving remains an open challenge. In this work, we investigate a fundamental
yet computationally intractable problem: determining whether a given
multivariate polynomial is nonnegative. This problem, closely related to
Hilbert's Seventeenth Problem, plays a crucial role in global polynomial
optimization and has applications in various fields. First, we introduce
SoS-1K, a meticulously curated dataset of approximately 1,000 polynomials,
along with expert-designed reasoning instructions based on five progressively
challenging criteria. Evaluating multiple state-of-the-art LLMs, we find that
without structured guidance, all models perform only slightly above the random
guess baseline 50%. However, high-quality reasoning instructions significantly
improve accuracy, boosting performance up to 81%. Furthermore, our 7B model,
SoS-7B, fine-tuned on SoS-1K for just 4 hours, outperforms the 671B DeepSeek-V3
and GPT-4o-mini in accuracy while only requiring 1.8% and 5% of the computation
time needed for letters, respectively. Our findings highlight the potential of
LLMs to push the boundaries of mathematical reasoning and tackle NP-hard
problems.Summary
AI-Generated Summary