Wenn das Denken auf seine Gesetze trifft
When Reasoning Meets Its Laws
December 19, 2025
papers.authors: Junyu Zhang, Yifan Sun, Tianang Leng, Jingyan Shen, Liu Ziyin, Paul Pu Liang, Huan Zhang
cs.AI
papers.abstract
Trotz der überlegenen Leistung von Large Reasoning Models (LRMs) sind ihre Denkprozesse oft kontraintuitiv, was zu suboptimalen Fähigkeiten führt. Um die gewünschten Denkprozesse theoretisch zu formalisieren, stellt dieses Papier die Laws of Reasoning (LoRe) vor, einen einheitlichen Rahmen, der intrinsische Denkmuster in LRMs charakterisiert. Wir schlagen zunächst ein Compute-Gesetz vor, basierend auf der Hypothese, dass der Rechenaufwand für das Denken linear mit der Fragekomplexität skalieren sollte. Darüber hinaus erweitern wir LoRe um ein ergänzendes Genauigkeitsgesetz. Da die Fragekomplexität in der Praxis schwer zu quantifizieren ist, überprüfen wir diese Hypothesen anhand zweier Eigenschaften der Gesetze: Monotonie und Kompositionalität. Daher führen wir LoRe-Bench ein, einen Benchmark, der diese beiden handhabbaren Eigenschaften für große Reasoning-Modelle systematisch misst. Die Auswertung zeigt, dass die meisten Reasoning-Modelle eine angemessene Monotonie aufweisen, aber an Kompositionalität mangelt es ihnen. Als Lösung entwickeln wir einen effektiven Finetuning-Ansatz, der die Kompositionalität des Compute-Gesetzes durchsetzt. Umfangreiche empirische Studien belegen, dass eine bessere Einhaltung der Compute-Gesetze zu konsistent verbesserten Reasoning-Leistungen auf mehreren Benchmarks führt und synergetische Effekte zwischen Eigenschaften und Gesetzen aufdeckt. Projektseite: https://lore-project.github.io/
English
Despite the superior performance of Large Reasoning Models (LRMs), their reasoning behaviors are often counterintuitive, leading to suboptimal reasoning capabilities. To theoretically formalize the desired reasoning behaviors, this paper presents the Laws of Reasoning (LoRe), a unified framework that characterizes intrinsic reasoning patterns in LRMs. We first propose compute law with the hypothesis that the reasoning compute should scale linearly with question complexity. Beyond compute, we extend LoRe with a supplementary accuracy law. Since the question complexity is difficult to quantify in practice, we examine these hypotheses by two properties of the laws, monotonicity and compositionality. We therefore introduce LoRe-Bench, a benchmark that systematically measures these two tractable properties for large reasoning models. Evaluation shows that most reasoning models exhibit reasonable monotonicity but lack compositionality. In response, we develop an effective finetuning approach that enforces compute-law compositionality. Extensive empirical studies demonstrate that better compliance with compute laws yields consistently improved reasoning performance on multiple benchmarks, and uncovers synergistic effects across properties and laws. Project page: https://lore-project.github.io/