SoS1: Los modelos de lenguaje de razonamiento tipo O1 y R1 son solucionadores de suma de cuadrados.
SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers
February 27, 2025
Autores: Kechen Li, Wenqi Zhu, Coralia Cartis, Tianbo Ji, Shiwei Liu
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han alcanzado un nivel de competencia comparable al humano en diversas tareas, pero su capacidad para resolver problemas matemáticos rigurosos sigue siendo un desafío abierto. En este trabajo, investigamos un problema fundamental pero computacionalmente intratable: determinar si un polinomio multivariado dado es no negativo. Este problema, estrechamente relacionado con el Decimoséptimo Problema de Hilbert, desempeña un papel crucial en la optimización global de polinomios y tiene aplicaciones en varios campos. Primero, presentamos SoS-1K, un conjunto de datos meticulosamente curado de aproximadamente 1,000 polinomios, junto con instrucciones de razonamiento diseñadas por expertos basadas en cinco criterios progresivamente desafiantes. Al evaluar múltiples LLMs de última generación, encontramos que, sin una guía estructurada, todos los modelos obtienen un rendimiento apenas superior al 50% de la línea base de adivinación aleatoria. Sin embargo, las instrucciones de razonamiento de alta calidad mejoran significativamente la precisión, aumentando el rendimiento hasta un 81%. Además, nuestro modelo de 7B, SoS-7B, ajustado en SoS-1K durante solo 4 horas, supera en precisión al DeepSeek-V3 de 671B y al GPT-4o-mini, mientras que requiere solo el 1.8% y el 5% del tiempo de computación necesario para las letras, respectivamente. Nuestros hallazgos destacan el potencial de los LLMs para ampliar los límites del razonamiento matemático y abordar problemas NP-difíciles.
English
Large Language Models (LLMs) have achieved human-level proficiency across
diverse tasks, but their ability to perform rigorous mathematical problem
solving remains an open challenge. In this work, we investigate a fundamental
yet computationally intractable problem: determining whether a given
multivariate polynomial is nonnegative. This problem, closely related to
Hilbert's Seventeenth Problem, plays a crucial role in global polynomial
optimization and has applications in various fields. First, we introduce
SoS-1K, a meticulously curated dataset of approximately 1,000 polynomials,
along with expert-designed reasoning instructions based on five progressively
challenging criteria. Evaluating multiple state-of-the-art LLMs, we find that
without structured guidance, all models perform only slightly above the random
guess baseline 50%. However, high-quality reasoning instructions significantly
improve accuracy, boosting performance up to 81%. Furthermore, our 7B model,
SoS-7B, fine-tuned on SoS-1K for just 4 hours, outperforms the 671B DeepSeek-V3
and GPT-4o-mini in accuracy while only requiring 1.8% and 5% of the computation
time needed for letters, respectively. Our findings highlight the potential of
LLMs to push the boundaries of mathematical reasoning and tackle NP-hard
problems.Summary
AI-Generated Summary