LAPO: Internalisierung der Effizienz des Schlussfolgerns durch Längen-adaptive Politikoptimierung
LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization
July 21, 2025
papers.authors: Xingyu Wu, Yuchen Yan, Shangke Lyu, Linjuan Wu, Yiwen Qiu, Yongliang Shen, Weiming Lu, Jian Shao, Jun Xiao, Yueting Zhuang
cs.AI
papers.abstract
Große Reasoning-Modelle haben durch erweiterte Chain-of-Thought-Sequenzen bemerkenswerte Leistungen erzielt, doch diese rechnerische Freiheit führt selbst bei einfachen Problemen zu einer übermäßigen Token-Generierung. Wir präsentieren Length-Adaptive Policy Optimization (LAPO), ein neuartiges Framework, das die Kontrolle der Reasoning-Länge von einer externen Beschränkung in eine intrinsische Modellfähigkeit transformiert. Im Gegensatz zu bestehenden Ansätzen, die starre Grenzen vorgeben oder auf nachträgliche Eingriffe angewiesen sind, ermöglicht LAPO Modellen, ein Verständnis für die angemessene Reasoning-Tiefe durch einen zweistufigen Reinforcement-Learning-Prozess zu internalisieren. In der ersten Stufe lernen Modelle natürliche Reasoning-Muster, indem sie die statistische Verteilung erfolgreicher Lösungsdauern entdecken. Die zweite Stufe nutzt diese Muster als metakognitive Führung, indem sie direkt in den Reasoning-Kontext des Modells eingebettet werden, um Flexibilität zur Inferenzzeit zu gewährleisten. Experimente auf mathematischen Reasoning-Benchmarks zeigen, dass LAPO den Token-Verbrauch um bis zu 40,9\% reduziert und gleichzeitig die Genauigkeit um 2,3\% verbessert. Unsere Analyse zeigt, dass mit LAPO trainierte Modelle emergente Fähigkeiten entwickeln, um Rechenressourcen basierend auf der Problemkomplexität zuzuteilen, wodurch effizientes Reasoning ohne Qualitätseinbußen erreicht wird.
English
Large reasoning models have achieved remarkable performance through extended
chain-of-thought sequences, yet this computational freedom leads to excessive
token generation even for simple problems. We present Length-Adaptive Policy
Optimization (LAPO), a novel framework that transforms reasoning length control
from an external constraint into an intrinsic model capability. Unlike existing
approaches that impose rigid limits or rely on post-hoc interventions, LAPO
enables models to internalize an understanding of appropriate reasoning depth
through a two-stage reinforcement learning process. In the first stage, models
learn natural reasoning patterns by discovering the statistical distribution of
successful solution lengths. The second stage leverages these patterns as
meta-cognitive guidance, embedding them directly within the model's reasoning
context to ensure inference-time flexibility. Experiments on mathematical
reasoning benchmarks demonstrate that LAPO reduces token usage by up to 40.9\%
while improving accuracy by 2.3\%. Our analysis reveals that models trained
with LAPO develop emergent abilities to allocate computational resources based
on problem complexity, achieving efficient reasoning without sacrificing
quality.