Когда рассуждение сталкивается со своими законами
When Reasoning Meets Its Laws
December 19, 2025
Авторы: Junyu Zhang, Yifan Sun, Tianang Leng, Jingyan Shen, Liu Ziyin, Paul Pu Liang, Huan Zhang
cs.AI
Аннотация
Несмотря на превосходную производительность больших моделей рассуждений (LRM), их поведение при рассуждениях часто оказывается контринтуитивным, что приводит к неоптимальным способностям к рассуждению. Для теоретического формализования желаемого поведения при рассуждениях в данной статье представлены Законы Рассуждений (LoRe) — унифицированная система, характеризующая внутренние паттерны рассуждений в LRM. Сначала мы предлагаем вычислительный закон, основанный на гипотезе о том, что вычислительные затраты на рассуждение должны масштабироваться линейно со сложностью вопроса. Помимо вычислений, мы расширяем LoRe дополнительным законом точности. Поскольку сложность вопроса сложно количественно оценить на практике, мы проверяем эти гипотезы с помощью двух свойств законов: монотонности и композициональности. Соответственно, мы представляем LoRe-Bench — эталонный тест, который систематически измеряет эти два доступных для анализа свойства у больших моделей рассуждений. Оценка показывает, что большинство моделей рассуждений демонстрируют приемлемую монотонность, но им не хватает композициональности. В ответ на это мы разрабатываем эффективный подход тонкой настройки, который обеспечивает композициональность в соответствии с вычислительным законом. Обширные эмпирические исследования демонстрируют, что лучшее соответствие вычислительным законам приводит к стабильному улучшению производительности рассуждений на нескольких тестовых наборах и выявляет синергетические эффекты между свойствами и законами. Страница проекта: https://lore-project.github.io/
English
Despite the superior performance of Large Reasoning Models (LRMs), their reasoning behaviors are often counterintuitive, leading to suboptimal reasoning capabilities. To theoretically formalize the desired reasoning behaviors, this paper presents the Laws of Reasoning (LoRe), a unified framework that characterizes intrinsic reasoning patterns in LRMs. We first propose compute law with the hypothesis that the reasoning compute should scale linearly with question complexity. Beyond compute, we extend LoRe with a supplementary accuracy law. Since the question complexity is difficult to quantify in practice, we examine these hypotheses by two properties of the laws, monotonicity and compositionality. We therefore introduce LoRe-Bench, a benchmark that systematically measures these two tractable properties for large reasoning models. Evaluation shows that most reasoning models exhibit reasonable monotonicity but lack compositionality. In response, we develop an effective finetuning approach that enforces compute-law compositionality. Extensive empirical studies demonstrate that better compliance with compute laws yields consistently improved reasoning performance on multiple benchmarks, and uncovers synergistic effects across properties and laws. Project page: https://lore-project.github.io/