Quando o Raciocínio Encontra Suas Leis

Resumo

Apesar do desempenho superior dos Grandes Modelos de Raciocínio (LRMs), seus comportamentos de raciocínio são frequentemente contra-intuitivos, levando a capacidades de raciocínio subótimas. Para formalizar teoricamente os comportamentos de raciocínio desejados, este artigo apresenta as Leis do Raciocínio (LoRe), uma estrutura unificada que caracteriza os padrões intrínsecos de raciocínio em LRMs. Primeiro, propomos a *lei de computação* com a hipótese de que o custo computacional do raciocínio deve escalar linearmente com a complexidade da questão. Além da computação, estendemos a LoRe com uma *lei de precisão* suplementar. Como a complexidade da questão é difícil de quantificar na prática, examinamos essas hipóteses por meio de duas propriedades das leis: monotonicidade e composicionalidade. Para isso, introduzimos o *LoRe-Bench*, um benchmark que mede sistematicamente essas duas propriedades tratáveis para grandes modelos de raciocínio. A avaliação mostra que a maioria dos modelos de raciocínio exibe monotonicidade razoável, mas carece de composicionalidade. Em resposta, desenvolvemos uma abordagem eficaz de ajuste fino (*finetuning*) que impõe a composicionalidade da lei de computação. Estudos empíricos extensivos demonstram que uma melhor conformidade com as leis de computação produz uma melhoria consistente no desempenho do raciocínio em vários benchmarks e revela efeitos sinérgicos entre propriedades e leis. Página do projeto: https://lore-project.github.io/

English

Despite the superior performance of Large Reasoning Models (LRMs), their reasoning behaviors are often counterintuitive, leading to suboptimal reasoning capabilities. To theoretically formalize the desired reasoning behaviors, this paper presents the Laws of Reasoning (LoRe), a unified framework that characterizes intrinsic reasoning patterns in LRMs. We first propose compute law with the hypothesis that the reasoning compute should scale linearly with question complexity. Beyond compute, we extend LoRe with a supplementary accuracy law. Since the question complexity is difficult to quantify in practice, we examine these hypotheses by two properties of the laws, monotonicity and compositionality. We therefore introduce LoRe-Bench, a benchmark that systematically measures these two tractable properties for large reasoning models. Evaluation shows that most reasoning models exhibit reasonable monotonicity but lack compositionality. In response, we develop an effective finetuning approach that enforces compute-law compositionality. Extensive empirical studies demonstrate that better compliance with compute laws yields consistently improved reasoning performance on multiple benchmarks, and uncovers synergistic effects across properties and laws. Project page: https://lore-project.github.io/

Quando o Raciocínio Encontra Suas Leis

When Reasoning Meets Its Laws

Resumo

Support