DeepPrune: Escalado paralelo sin redundancia entre trazas
DeepPrune: Parallel Scaling without Inter-trace Redundancy
October 9, 2025
Autores: Shangqing Tu, Yaxuan Li, Yushi Bai, Lei Hou, Juanzi Li
cs.AI
Resumen
El escalado paralelo ha surgido como un paradigma poderoso para mejorar las capacidades de razonamiento en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) mediante la generación simultánea de múltiples trazas de Cadena de Pensamiento (CoT, por sus siglas en inglés). Sin embargo, este enfoque introduce una ineficiencia computacional significativa debido a la redundancia entre trazas: nuestro análisis revela que más del 80% de las trazas de razonamiento paralelo producen respuestas finales idénticas, lo que representa un desperdicio sustancial de cálculo. Para abordar este cuello de botella crítico en la eficiencia, proponemos DeepPrune, un marco novedoso que permite un escalado paralelo eficiente mediante la poda dinámica. Nuestro método incluye un modelo juez especializado entrenado con pérdida focal y técnicas de sobremuestreo para predecir con precisión la equivalencia de respuestas a partir de trazas parciales de razonamiento, logrando un AUROC de 0.87 en la predicción de equivalencia, combinado con un algoritmo de agrupamiento voraz en línea que poda dinámicamente las rutas redundantes mientras preserva la diversidad de respuestas. Evaluaciones exhaustivas en tres conjuntos de referencia desafiantes (AIME 2024, AIME 2025 y GPQA) y múltiples modelos de razonamiento demuestran que DeepPrune logra una reducción notable de tokens, superando el 80% en comparación con el muestreo de consenso convencional en la mayoría de los casos, manteniendo una precisión competitiva dentro de un margen de 3 puntos porcentuales. Nuestro trabajo establece un nuevo estándar para el razonamiento paralelo eficiente, haciendo que el razonamiento de alto rendimiento sea más eficiente. Nuestro código y datos están disponibles aquí: https://deepprune.github.io/.
English
Parallel scaling has emerged as a powerful paradigm to enhance reasoning
capabilities in large language models (LLMs) by generating multiple
Chain-of-Thought (CoT) traces simultaneously. However, this approach introduces
significant computational inefficiency due to inter-trace redundancy -- our
analysis reveals that over 80% of parallel reasoning traces yield identical
final answers, representing substantial wasted computation. To address this
critical efficiency bottleneck, we propose DeepPrune, a novel framework that
enables efficient parallel scaling through dynamic pruning. Our method features
a specialized judge model trained with focal loss and oversampling techniques
to accurately predict answer equivalence from partial reasoning traces which
realizes 0.87 AUROC on equivalence prediction, combined with an online greedy
clustering algorithm that dynamically prunes redundant paths while preserving
answer diversity. Comprehensive evaluations across three challenging benchmarks
(AIME 2024, AIME 2025, and GPQA) and multiple reasoning models demonstrate that
DeepPrune achieves remarkable token reduction by over 80% compared to
conventional consensus sampling on most cases, while maintaining competitive
accuracy within 3 percentage points. Our work establishes a new standard for
efficient parallel reasoning, making high-performance reasoning more efficient.
Our code and data are here: https://deepprune.github.io/