Snijd uw verliezen! Vroegtijdig leren snoeien van paden voor efficiënte parallelle redenering

Samenvatting

Parallel redeneren verbetert Large Reasoning Models (LRM's), maar brengt onhoudbare kosten met zich mee door nutteloze paden veroorzaakt door vroege fouten. Om dit te beperken is pad-snoei op prefixniveau essentieel, maar bestaand onderzoek blijft gefragmenteerd zonder een gestandaardiseerd kader. In dit werk stellen we de eerste systematische taxonomie van pad-snoei voor, waarbij we methoden categoriseren op basis van hun signaalbron (intern vs. extern) en leerbaarheid (leerbaar vs. niet-leerbaar). Deze classificatie onthult het onontgonnen potentieel van leerbare interne methoden, wat onze voorstel van STOP (Super Token voor Snoei) motiveert. Uitgebreide evaluaties bij LRM's variërend van 1,5B tot 20B parameters tonen aan dat STOP superieure effectiviteit en efficiëntie bereikt in vergelijking met bestaande baseline-methoden. Verder valideren we grondig de schaalbaarheid van STOP onder wisselende rekenbudgetten - bijvoorbeeld door de nauwkeurigheid van GPT-OSS-20B op AIME25 te verhogen van 84% naar bijna 90% onder vaste rekenbudgetten. Ten slotte destilleren we onze bevindingen in geformaliseerde empirische richtlijnen om optimale implementatie in de praktijk te vergemakkelijken. Code, data en modellen zijn beschikbaar op https://bijiaxihh.github.io/STOP.

English

Parallel reasoning enhances Large Reasoning Models (LRMs) but incurs prohibitive costs due to futile paths caused by early errors. To mitigate this, path pruning at the prefix level is essential, yet existing research remains fragmented without a standardized framework. In this work, we propose the first systematic taxonomy of path pruning, categorizing methods by their signal source (internal vs. external) and learnability (learnable vs. non-learnable). This classification reveals the unexplored potential of learnable internal methods, motivating our proposal of STOP (Super TOken for Pruning). Extensive evaluations across LRMs ranging from 1.5B to 20B parameters demonstrate that STOP achieves superior effectiveness and efficiency compared to existing baselines. Furthermore, we rigorously validate the scalability of STOP under varying compute budgets - for instance, boosting GPT-OSS-20B accuracy on AIME25 from 84% to nearly 90% under fixed compute budgets. Finally, we distill our findings into formalized empirical guidelines to facilitate optimal real-world deployment. Code, data and models are available at https://bijiaxihh.github.io/STOP

Snijd uw verliezen! Vroegtijdig leren snoeien van paden voor efficiënte parallelle redenering

Cut Your Losses! Learning to Prune Paths Early for Efficient Parallel Reasoning

Samenvatting

Support