ChatPaper.aiChatPaper

Wanneer Redeneren Zijn Grenzen Berekent

When Reasoning Meets Its Laws

December 19, 2025
Auteurs: Junyu Zhang, Yifan Sun, Tianang Leng, Jingyan Shen, Liu Ziyin, Paul Pu Liang, Huan Zhang
cs.AI

Samenvatting

Ondanks de superieure prestaties van Large Reasoning Models (LRM's) zijn hun redeneergedragingen vaak contra-intuïtief, wat leidt tot suboptimale redeneercapaciteiten. Om de gewenste redeneergedragingen theoretisch te formaliseren, presenteert dit artikel de Laws of Reasoning (LoRe), een uniform kader dat intrinsieke redeneerpatronen in LRM's karakteriseert. We stellen eerst de compute law voor, gebaseerd op de hypothese dat de benodigde rekenkracht lineair moet schalen met de vraagcomplexiteit. Naast rekenkracht breiden we LoRe uit met een aanvullende accuracy law. Aangezien vraagcomplexiteit in de praktijk moeilijk te kwantificeren is, toetsen we deze hypothesen aan twee eigenschappen van de wetten: monotoniciteit en compositionaliteit. Daarom introduceren we LoRe-Bench, een benchmark die deze twee hanteerbare eigenschappen systematisch meet voor grote redeneermodellen. Evaluatie toont aan dat de meeste redeneermodellen redelijke monotoniciteit vertonen, maar compositionaliteit missen. Als reactie hierop ontwikkelen we een effectieve finetuning-aanpak die compositionaliteit van de compute law afdwingt. Uitgebreide empirische studies tonen aan dat betere naleving van de compute laws consistent verbeterde redeneerprestaties oplevert op meerdere benchmarks, en synergetische effecten tussen eigenschappen en wetten blootlegt. Projectpagina: https://lore-project.github.io/
English
Despite the superior performance of Large Reasoning Models (LRMs), their reasoning behaviors are often counterintuitive, leading to suboptimal reasoning capabilities. To theoretically formalize the desired reasoning behaviors, this paper presents the Laws of Reasoning (LoRe), a unified framework that characterizes intrinsic reasoning patterns in LRMs. We first propose compute law with the hypothesis that the reasoning compute should scale linearly with question complexity. Beyond compute, we extend LoRe with a supplementary accuracy law. Since the question complexity is difficult to quantify in practice, we examine these hypotheses by two properties of the laws, monotonicity and compositionality. We therefore introduce LoRe-Bench, a benchmark that systematically measures these two tractable properties for large reasoning models. Evaluation shows that most reasoning models exhibit reasonable monotonicity but lack compositionality. In response, we develop an effective finetuning approach that enforces compute-law compositionality. Extensive empirical studies demonstrate that better compliance with compute laws yields consistently improved reasoning performance on multiple benchmarks, and uncovers synergistic effects across properties and laws. Project page: https://lore-project.github.io/
PDF483December 23, 2025