DeepPrune: Escalado paralelo sin redundancia entre trazas

Resumen

El escalado paralelo ha surgido como un paradigma poderoso para mejorar las capacidades de razonamiento en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) mediante la generación simultánea de múltiples trazas de Cadena de Pensamiento (CoT, por sus siglas en inglés). Sin embargo, este enfoque introduce una ineficiencia computacional significativa debido a la redundancia entre trazas: nuestro análisis revela que más del 80% de las trazas de razonamiento paralelo producen respuestas finales idénticas, lo que representa un desperdicio sustancial de cálculo. Para abordar este cuello de botella crítico en la eficiencia, proponemos DeepPrune, un marco novedoso que permite un escalado paralelo eficiente mediante la poda dinámica. Nuestro método incluye un modelo juez especializado entrenado con pérdida focal y técnicas de sobremuestreo para predecir con precisión la equivalencia de respuestas a partir de trazas parciales de razonamiento, logrando un AUROC de 0.87 en la predicción de equivalencia, combinado con un algoritmo de agrupamiento voraz en línea que poda dinámicamente las rutas redundantes mientras preserva la diversidad de respuestas. Evaluaciones exhaustivas en tres conjuntos de referencia desafiantes (AIME 2024, AIME 2025 y GPQA) y múltiples modelos de razonamiento demuestran que DeepPrune logra una reducción notable de tokens, superando el 80% en comparación con el muestreo de consenso convencional en la mayoría de los casos, manteniendo una precisión competitiva dentro de un margen de 3 puntos porcentuales. Nuestro trabajo establece un nuevo estándar para el razonamiento paralelo eficiente, haciendo que el razonamiento de alto rendimiento sea más eficiente. Nuestro código y datos están disponibles aquí: https://deepprune.github.io/.

English

Parallel scaling has emerged as a powerful paradigm to enhance reasoning capabilities in large language models (LLMs) by generating multiple Chain-of-Thought (CoT) traces simultaneously. However, this approach introduces significant computational inefficiency due to inter-trace redundancy -- our analysis reveals that over 80% of parallel reasoning traces yield identical final answers, representing substantial wasted computation. To address this critical efficiency bottleneck, we propose DeepPrune, a novel framework that enables efficient parallel scaling through dynamic pruning. Our method features a specialized judge model trained with focal loss and oversampling techniques to accurately predict answer equivalence from partial reasoning traces which realizes 0.87 AUROC on equivalence prediction, combined with an online greedy clustering algorithm that dynamically prunes redundant paths while preserving answer diversity. Comprehensive evaluations across three challenging benchmarks (AIME 2024, AIME 2025, and GPQA) and multiple reasoning models demonstrate that DeepPrune achieves remarkable token reduction by over 80% compared to conventional consensus sampling on most cases, while maintaining competitive accuracy within 3 percentage points. Our work establishes a new standard for efficient parallel reasoning, making high-performance reasoning more efficient. Our code and data are here: https://deepprune.github.io/

DeepPrune: Escalado paralelo sin redundancia entre trazas

DeepPrune: Parallel Scaling without Inter-trace Redundancy

Resumen

Support