SoS1: O1 und R1-ähnliche Reasoning-LLMs sind Summe-der-Quadrate-Löser
SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers
February 27, 2025
Autoren: Kechen Li, Wenqi Zhu, Coralia Cartis, Tianbo Ji, Shiwei Liu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben menschliches Niveau bei einer Vielzahl von Aufgaben erreicht, doch ihre Fähigkeit, rigorose mathematische Probleme zu lösen, bleibt eine offene Herausforderung. In dieser Arbeit untersuchen wir ein grundlegendes, aber rechnerisch unlösbares Problem: die Bestimmung, ob ein gegebenes multivariates Polynom nichtnegativ ist. Dieses Problem, das eng mit Hilberts siebzehntem Problem verbunden ist, spielt eine entscheidende Rolle in der globalen Polynomoptimierung und findet Anwendungen in verschiedenen Bereichen. Zunächst stellen wir SoS-1K vor, ein sorgfältig kuratiertes Datenset von etwa 1.000 Polynomen, zusammen mit von Experten entworfenen Anleitungen zur logischen Schlussfolgerung basierend auf fünf zunehmend anspruchsvollen Kriterien. Bei der Bewertung mehrerer state-of-the-art LLMs stellen wir fest, dass alle Modelle ohne strukturierte Anleitung nur knapp über der Zufallsrate von 50 % liegen. Hochwertige Anleitungen zur logischen Schlussfolgerung verbessern die Genauigkeit jedoch erheblich und steigern die Leistung auf bis zu 81 %. Darüber hinaus übertrifft unser 7B-Modell, SoS-7B, das auf SoS-1K für nur 4 Stunden feinabgestimmt wurde, die 671B DeepSeek-V3 und GPT-4o-mini in der Genauigkeit, während es lediglich 1,8 % bzw. 5 % der für diese Modelle benötigten Rechenzeit in Anspruch nimmt. Unsere Ergebnisse unterstreichen das Potenzial von LLMs, die Grenzen des mathematischen Denkens zu erweitern und NP-schwere Probleme anzugehen.
English
Large Language Models (LLMs) have achieved human-level proficiency across
diverse tasks, but their ability to perform rigorous mathematical problem
solving remains an open challenge. In this work, we investigate a fundamental
yet computationally intractable problem: determining whether a given
multivariate polynomial is nonnegative. This problem, closely related to
Hilbert's Seventeenth Problem, plays a crucial role in global polynomial
optimization and has applications in various fields. First, we introduce
SoS-1K, a meticulously curated dataset of approximately 1,000 polynomials,
along with expert-designed reasoning instructions based on five progressively
challenging criteria. Evaluating multiple state-of-the-art LLMs, we find that
without structured guidance, all models perform only slightly above the random
guess baseline 50%. However, high-quality reasoning instructions significantly
improve accuracy, boosting performance up to 81%. Furthermore, our 7B model,
SoS-7B, fine-tuned on SoS-1K for just 4 hours, outperforms the 671B DeepSeek-V3
and GPT-4o-mini in accuracy while only requiring 1.8% and 5% of the computation
time needed for letters, respectively. Our findings highlight the potential of
LLMs to push the boundaries of mathematical reasoning and tackle NP-hard
problems.Summary
AI-Generated Summary