SoS1: O1 e i modelli linguistici di ragionamento simili a R1 sono risolutori di somme di quadrati.
SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers
February 27, 2025
Autori: Kechen Li, Wenqi Zhu, Coralia Cartis, Tianbo Ji, Shiwei Liu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno raggiunto una competenza paragonabile a quella umana in una vasta gamma di compiti, ma la loro capacità di risolvere problemi matematici rigorosi rimane una sfida aperta. In questo lavoro, indaghiamo un problema fondamentale ma computazionalmente intrattabile: determinare se un dato polinomio multivariato è non negativo. Questo problema, strettamente correlato al Diciassettesimo Problema di Hilbert, svolge un ruolo cruciale nell'ottimizzazione globale dei polinomi e ha applicazioni in vari campi. In primo luogo, introduciamo SoS-1K, un dataset accuratamente curato di circa 1.000 polinomi, insieme a istruzioni di ragionamento progettate da esperti basate su cinque criteri progressivamente più impegnativi. Valutando diversi LLM all'avanguardia, scopriamo che, senza una guida strutturata, tutti i modelli performano solo leggermente al di sopra della linea di base del 50% di ipotesi casuali. Tuttavia, istruzioni di ragionamento di alta qualità migliorano significativamente l'accuratezza, aumentando le prestazioni fino all'81%. Inoltre, il nostro modello da 7B, SoS-7B, addestrato su SoS-1K per sole 4 ore, supera in accuratezza il DeepSeek-V3 da 671B e il GPT-4o-mini, richiedendo rispettivamente solo l'1,8% e il 5% del tempo di calcolo necessario per le lettere. I nostri risultati evidenziano il potenziale degli LLM di spingere i confini del ragionamento matematico e affrontare problemi NP-difficili.
English
Large Language Models (LLMs) have achieved human-level proficiency across
diverse tasks, but their ability to perform rigorous mathematical problem
solving remains an open challenge. In this work, we investigate a fundamental
yet computationally intractable problem: determining whether a given
multivariate polynomial is nonnegative. This problem, closely related to
Hilbert's Seventeenth Problem, plays a crucial role in global polynomial
optimization and has applications in various fields. First, we introduce
SoS-1K, a meticulously curated dataset of approximately 1,000 polynomials,
along with expert-designed reasoning instructions based on five progressively
challenging criteria. Evaluating multiple state-of-the-art LLMs, we find that
without structured guidance, all models perform only slightly above the random
guess baseline 50%. However, high-quality reasoning instructions significantly
improve accuracy, boosting performance up to 81%. Furthermore, our 7B model,
SoS-7B, fine-tuned on SoS-1K for just 4 hours, outperforms the 671B DeepSeek-V3
and GPT-4o-mini in accuracy while only requiring 1.8% and 5% of the computation
time needed for letters, respectively. Our findings highlight the potential of
LLMs to push the boundaries of mathematical reasoning and tackle NP-hard
problems.Summary
AI-Generated Summary