Weet uw redeneermodel impliciet wanneer het moet stoppen met denken?
Does Your Reasoning Model Implicitly Know When to Stop Thinking?
February 9, 2026
Auteurs: Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang, Zhixia Zhang, Hongyan Xie, Songshi Liang, Zehao Chen, Xuefeng Xiao, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang
cs.AI
Samenvatting
Recente vooruitgang in grotere redeneermodellen (LRM's) heeft hun capaciteiten voor complexe redeneertaken aanzienlijk verbeterd door middel van Lange Denkketens (CoT's). Deze aanpak resulteert echter vaak in aanzienlijke redundantie, wat de computationele efficiëntie schaadt en aanzienlijke vertragingen veroorzaakt in real-time toepassingen. Recente studies tonen aan dat langere redeneerketens vaak geen verband houden met correctheid en zelfs nadelig kunnen zijn voor de nauwkeurigheid. In een verdere diepgaande analyse van dit fenomeen, ontdekken en verifiëren we verrassend genoeg empirisch dat LRM's impliciet weten wanneer ze moeten stoppen met denken, maar dat dit vermogen wordt verhuld door huidige samplingparadigma's. Gemotiveerd door deze bevinding introduceren we SAGE (Zelfbewust Gestuurd Efficiënt Redeneren), een nieuw samplingparadigma dat dit efficiënte redeneerpotentieel ontsluit. Bovendien stelt de integratie van SAGE als gemengde sampling in op groepen gebaseerde reinforcement learning (SAGE-RL) SAGE-RL in staat om efficiënte redeneerpatronen die door SAGE zijn ontdekt effectief te incorporeren in standaard pass@1-inferentie, waardoor zowel de redeneernauwkeurigheid als efficiëntie van LRM's aanzienlijk wordt verbeterd op meerdere uitdagende wiskundige benchmarks.
English
Recent advancements in large reasoning models (LRMs) have greatly improved their capabilities on complex reasoning tasks through Long Chains of Thought (CoTs). However, this approach often results in substantial redundancy, impairing computational efficiency and causing significant delays in real-time applications. Recent studies show that longer reasoning chains are frequently uncorrelated with correctness and can even be detrimental to accuracy. In a further in-depth analysis of this phenomenon, we surprisingly uncover and empirically verify that LRMs implicitly know the appropriate time to stop thinking, while this capability is obscured by current sampling paradigms. Motivated by this, we introduce SAGE (Self-Aware Guided Efficient Reasoning), a novel sampling paradigm that unleashes this efficient reasoning potential. Furthermore, integrating SAGE as mixed sampling into group-based reinforcement learning (SAGE-RL) enables SAGE-RL to effectively incorporate SAGE-discovered efficient reasoning patterns into standard pass@1 inference, markedly enhancing both the reasoning accuracy and efficiency of LRMs across multiple challenging mathematical benchmarks.