SoS1: O1 e i modelli linguistici di ragionamento simili a R1 sono risolutori di somme di quadrati.

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno raggiunto una competenza paragonabile a quella umana in una vasta gamma di compiti, ma la loro capacità di risolvere problemi matematici rigorosi rimane una sfida aperta. In questo lavoro, indaghiamo un problema fondamentale ma computazionalmente intrattabile: determinare se un dato polinomio multivariato è non negativo. Questo problema, strettamente correlato al Diciassettesimo Problema di Hilbert, svolge un ruolo cruciale nell'ottimizzazione globale dei polinomi e ha applicazioni in vari campi. In primo luogo, introduciamo SoS-1K, un dataset accuratamente curato di circa 1.000 polinomi, insieme a istruzioni di ragionamento progettate da esperti basate su cinque criteri progressivamente più impegnativi. Valutando diversi LLM all'avanguardia, scopriamo che, senza una guida strutturata, tutti i modelli performano solo leggermente al di sopra della linea di base del 50% di ipotesi casuali. Tuttavia, istruzioni di ragionamento di alta qualità migliorano significativamente l'accuratezza, aumentando le prestazioni fino all'81%. Inoltre, il nostro modello da 7B, SoS-7B, addestrato su SoS-1K per sole 4 ore, supera in accuratezza il DeepSeek-V3 da 671B e il GPT-4o-mini, richiedendo rispettivamente solo l'1,8% e il 5% del tempo di calcolo necessario per le lettere. I nostri risultati evidenziano il potenziale degli LLM di spingere i confini del ragionamento matematico e affrontare problemi NP-difficili.

English

Large Language Models (LLMs) have achieved human-level proficiency across diverse tasks, but their ability to perform rigorous mathematical problem solving remains an open challenge. In this work, we investigate a fundamental yet computationally intractable problem: determining whether a given multivariate polynomial is nonnegative. This problem, closely related to Hilbert's Seventeenth Problem, plays a crucial role in global polynomial optimization and has applications in various fields. First, we introduce SoS-1K, a meticulously curated dataset of approximately 1,000 polynomials, along with expert-designed reasoning instructions based on five progressively challenging criteria. Evaluating multiple state-of-the-art LLMs, we find that without structured guidance, all models perform only slightly above the random guess baseline 50%. However, high-quality reasoning instructions significantly improve accuracy, boosting performance up to 81%. Furthermore, our 7B model, SoS-7B, fine-tuned on SoS-1K for just 4 hours, outperforms the 671B DeepSeek-V3 and GPT-4o-mini in accuracy while only requiring 1.8% and 5% of the computation time needed for letters, respectively. Our findings highlight the potential of LLMs to push the boundaries of mathematical reasoning and tackle NP-hard problems.

SoS1: O1 e i modelli linguistici di ragionamento simili a R1 sono risolutori di somme di quadrati.

SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers

Abstract

Support