SoS1: O1 en R1-Like Reasoning LLMs zijn Sum-of-Square Oplossers
SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers
February 27, 2025
Auteurs: Kechen Li, Wenqi Zhu, Coralia Cartis, Tianbo Ji, Shiwei Liu
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben menselijk niveau bereikt in diverse taken, maar hun vermogen om rigoureuze wiskundige problemen op te lossen blijft een uitdaging. In dit werk onderzoeken we een fundamenteel maar computationeel onhandelbaar probleem: bepalen of een gegeven multivariate polynoom niet-negatief is. Dit probleem, nauw verwant aan het Zeventiende Probleem van Hilbert, speelt een cruciale rol in globale polynoomoptimalisatie en heeft toepassingen in verschillende vakgebieden. Eerst introduceren we SoS-1K, een zorgvuldig samengestelde dataset van ongeveer 1.000 polynomen, samen met expert-ontworpen redeneerinstructies gebaseerd op vijf progressief uitdagende criteria. Bij het evalueren van meerdere state-of-the-art LLMs, ontdekken we dat zonder gestructureerde begeleiding alle modellen slechts iets beter presteren dan de willekeurige gokbasis van 50%. Echter, hoogwaardige redeneerinstructies verbeteren de nauwkeurigheid aanzienlijk, wat de prestaties tot 81% verhoogt. Bovendien presteert ons 7B-model, SoS-7B, dat slechts 4 uur is afgestemd op SoS-1K, beter dan de 671B DeepSeek-V3 en GPT-4o-mini in nauwkeurigheid, terwijl het slechts 1,8% en 5% van de benodigde rekentijd voor letters vereist. Onze bevindingen benadrukken het potentieel van LLMs om de grenzen van wiskundig redeneren te verleggen en NP-hard problemen aan te pakken.
English
Large Language Models (LLMs) have achieved human-level proficiency across
diverse tasks, but their ability to perform rigorous mathematical problem
solving remains an open challenge. In this work, we investigate a fundamental
yet computationally intractable problem: determining whether a given
multivariate polynomial is nonnegative. This problem, closely related to
Hilbert's Seventeenth Problem, plays a crucial role in global polynomial
optimization and has applications in various fields. First, we introduce
SoS-1K, a meticulously curated dataset of approximately 1,000 polynomials,
along with expert-designed reasoning instructions based on five progressively
challenging criteria. Evaluating multiple state-of-the-art LLMs, we find that
without structured guidance, all models perform only slightly above the random
guess baseline 50%. However, high-quality reasoning instructions significantly
improve accuracy, boosting performance up to 81%. Furthermore, our 7B model,
SoS-7B, fine-tuned on SoS-1K for just 4 hours, outperforms the 671B DeepSeek-V3
and GPT-4o-mini in accuracy while only requiring 1.8% and 5% of the computation
time needed for letters, respectively. Our findings highlight the potential of
LLMs to push the boundaries of mathematical reasoning and tackle NP-hard
problems.Summary
AI-Generated Summary