Cuando el razonamiento se encuentra con sus leyes
When Reasoning Meets Its Laws
December 19, 2025
Autores: Junyu Zhang, Yifan Sun, Tianang Leng, Jingyan Shen, Liu Ziyin, Paul Pu Liang, Huan Zhang
cs.AI
Resumen
A pesar del rendimiento superior de los Modelos de Gran Razonamiento (LRMs), sus comportamientos de razonamiento suelen ser contraintuitivos, lo que conduce a capacidades de razonamiento subóptimas. Para formalizar teóricamente los comportamientos de razonamiento deseados, este artículo presenta las Leyes del Razonamiento (LoRe), un marco unificado que caracteriza los patrones intrínsecos de razonamiento en los LRMs. Primero proponemos la *ley de cómputo* con la hipótesis de que el cómputo del razonamiento debe escalar linealmente con la complejidad de la pregunta. Más allá del cómputo, extendemos LoRe con una *ley de precisión* suplementaria. Dado que la complejidad de la pregunta es difícil de cuantificar en la práctica, examinamos estas hipótesis mediante dos propiedades de las leyes: la monotonicidad y la composicionalidad. Por lo tanto, presentamos LoRe-Bench, un benchmark que mide sistemáticamente estas dos propiedades tratables para modelos de gran razonamiento. La evaluación muestra que la mayoría de los modelos de razonamiento exhiben una monotonicidad razonable pero carecen de composicionalidad. En respuesta, desarrollamos un enfoque efectivo de ajuste fino que impone la composicionalidad de la ley de cómputo. Estudios empíricos exhaustivos demuestran que un mejor cumplimiento de las leyes de cómputo produce una mejora constante en el rendimiento del razonamiento en múltiples benchmarks, y descubre efectos sinérgicos entre propiedades y leyes. Página del proyecto: https://lore-project.github.io/
English
Despite the superior performance of Large Reasoning Models (LRMs), their reasoning behaviors are often counterintuitive, leading to suboptimal reasoning capabilities. To theoretically formalize the desired reasoning behaviors, this paper presents the Laws of Reasoning (LoRe), a unified framework that characterizes intrinsic reasoning patterns in LRMs. We first propose compute law with the hypothesis that the reasoning compute should scale linearly with question complexity. Beyond compute, we extend LoRe with a supplementary accuracy law. Since the question complexity is difficult to quantify in practice, we examine these hypotheses by two properties of the laws, monotonicity and compositionality. We therefore introduce LoRe-Bench, a benchmark that systematically measures these two tractable properties for large reasoning models. Evaluation shows that most reasoning models exhibit reasonable monotonicity but lack compositionality. In response, we develop an effective finetuning approach that enforces compute-law compositionality. Extensive empirical studies demonstrate that better compliance with compute laws yields consistently improved reasoning performance on multiple benchmarks, and uncovers synergistic effects across properties and laws. Project page: https://lore-project.github.io/