ChatPaper.aiChatPaper

DeepPrune: Parallelle schaalbaarheid zonder redundantie tussen sporen

DeepPrune: Parallel Scaling without Inter-trace Redundancy

October 9, 2025
Auteurs: Shangqing Tu, Yaxuan Li, Yushi Bai, Lei Hou, Juanzi Li
cs.AI

Samenvatting

Parallel scaling is uitgegroeid tot een krachtig paradigma om de redeneervaardigheden van grote taalmodellen (LLMs) te verbeteren door meerdere Chain-of-Thought (CoT)-sporen gelijktijdig te genereren. Deze aanpak introduceert echter aanzienlijke computationele inefficiëntie vanwege redundantie tussen sporen – onze analyse toont aan dat meer dan 80% van de parallelle redeneersporen tot identieke eindantwoorden leidt, wat staat voor aanzienlijke verspilling van rekenkracht. Om dit kritieke efficiëntieprobleem aan te pakken, stellen we DeepPrune voor, een nieuw raamwerk dat efficiënte parallelle scaling mogelijk maakt door dynamisch snoeien. Onze methode omvat een gespecialiseerd beoordelingsmodel dat is getraind met focal loss en oversamplingtechnieken om nauwkeurig antwoordgelijkheid te voorspellen op basis van gedeeltelijke redeneersporen, wat een AUROC van 0,87 realiseert voor equivalentievoorspelling, gecombineerd met een online greedy clustering-algoritme dat redundantie dynamisch verwijdert terwijl antwoorddiversiteit behouden blijft. Uitgebreide evaluaties over drie uitdagende benchmarks (AIME 2024, AIME 2025 en GPQA) en meerdere redeneermodellen tonen aan dat DeepPrune een opmerkelijke tokenreductie van meer dan 80% bereikt vergeleken met conventionele consensus sampling in de meeste gevallen, terwijl het competitieve nauwkeurigheid binnen 3 procentpunten behoudt. Ons werk stelt een nieuwe standaard voor efficiënte parallelle redenering, waardoor hoogwaardige redenering efficiënter wordt. Onze code en data zijn hier beschikbaar: https://deepprune.github.io/
English
Parallel scaling has emerged as a powerful paradigm to enhance reasoning capabilities in large language models (LLMs) by generating multiple Chain-of-Thought (CoT) traces simultaneously. However, this approach introduces significant computational inefficiency due to inter-trace redundancy -- our analysis reveals that over 80% of parallel reasoning traces yield identical final answers, representing substantial wasted computation. To address this critical efficiency bottleneck, we propose DeepPrune, a novel framework that enables efficient parallel scaling through dynamic pruning. Our method features a specialized judge model trained with focal loss and oversampling techniques to accurately predict answer equivalence from partial reasoning traces which realizes 0.87 AUROC on equivalence prediction, combined with an online greedy clustering algorithm that dynamically prunes redundant paths while preserving answer diversity. Comprehensive evaluations across three challenging benchmarks (AIME 2024, AIME 2025, and GPQA) and multiple reasoning models demonstrate that DeepPrune achieves remarkable token reduction by over 80% compared to conventional consensus sampling on most cases, while maintaining competitive accuracy within 3 percentage points. Our work establishes a new standard for efficient parallel reasoning, making high-performance reasoning more efficient. Our code and data are here: https://deepprune.github.io/
PDF232October 10, 2025