SoS1: Modelos de Linguagem de Raciocínio O1 e R1-Like são Solucionadores de Soma de Quadrados
SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers
February 27, 2025
Autores: Kechen Li, Wenqi Zhu, Coralia Cartis, Tianbo Ji, Shiwei Liu
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) alcançaram proficiência em nível humano em diversas tarefas, mas sua capacidade de realizar resolução rigorosa de problemas matemáticos permanece um desafio em aberto. Neste trabalho, investigamos um problema fundamental, mas computacionalmente intratável: determinar se um dado polinômio multivariado é não negativo. Esse problema, intimamente relacionado ao Décimo Sétimo Problema de Hilbert, desempenha um papel crucial na otimização global de polinômios e tem aplicações em vários campos. Primeiro, introduzimos o SoS-1K, um conjunto de dados meticulosamente curado de aproximadamente 1.000 polinômios, juntamente com instruções de raciocínio projetadas por especialistas com base em cinco critérios progressivamente desafiadores. Avaliando múltiplos LLMs de última geração, descobrimos que, sem orientação estruturada, todos os modelos performam apenas ligeiramente acima da linha de base de adivinhação aleatória de 50%. No entanto, instruções de raciocínio de alta qualidade melhoram significativamente a precisão, impulsionando o desempenho até 81%. Além disso, nosso modelo de 7B, SoS-7B, ajustado no SoS-1K por apenas 4 horas, supera o DeepSeek-V3 de 671B e o GPT-4o-mini em precisão, enquanto requer apenas 1,8% e 5% do tempo de computação necessário para letras, respectivamente. Nossas descobertas destacam o potencial dos LLMs para expandir os limites do raciocínio matemático e enfrentar problemas NP-difíceis.
English
Large Language Models (LLMs) have achieved human-level proficiency across
diverse tasks, but their ability to perform rigorous mathematical problem
solving remains an open challenge. In this work, we investigate a fundamental
yet computationally intractable problem: determining whether a given
multivariate polynomial is nonnegative. This problem, closely related to
Hilbert's Seventeenth Problem, plays a crucial role in global polynomial
optimization and has applications in various fields. First, we introduce
SoS-1K, a meticulously curated dataset of approximately 1,000 polynomials,
along with expert-designed reasoning instructions based on five progressively
challenging criteria. Evaluating multiple state-of-the-art LLMs, we find that
without structured guidance, all models perform only slightly above the random
guess baseline 50%. However, high-quality reasoning instructions significantly
improve accuracy, boosting performance up to 81%. Furthermore, our 7B model,
SoS-7B, fine-tuned on SoS-1K for just 4 hours, outperforms the 671B DeepSeek-V3
and GPT-4o-mini in accuracy while only requiring 1.8% and 5% of the computation
time needed for letters, respectively. Our findings highlight the potential of
LLMs to push the boundaries of mathematical reasoning and tackle NP-hard
problems.Summary
AI-Generated Summary