Corte Suas Perdas! Aprendendo a Podar Caminhos Antecipadamente para um Raciocínio Paralelo Eficiente

Resumo

O raciocínio paralelo melhora os Modelos de Raciocínio de Grande Escala (LRMs), mas incorre em custos proibitivos devido a caminhos infrutíferos causados por erros iniciais. Para mitigar isso, a poda de caminhos a nível de prefixo é essencial, porém a pesquisa existente permanece fragmentada sem uma estrutura padronizada. Neste trabalho, propomos a primeira taxonomia sistemática de poda de caminhos, categorizando métodos por sua fonte de sinal (interna vs. externa) e capacidade de aprendizado (aprendível vs. não-aprendível). Esta classificação revela o potencial inexplorado dos métodos internos aprendíveis, motivando nossa proposta de STOP (Super Token para Poda). Avaliações extensas em LRMs variando de 1,5B a 20B de parâmetros demonstram que o STOP alcança eficácia e eficiência superiores comparado às linhas de base existentes. Adicionalmente, validamos rigorosamente a escalabilidade do STOP sob diferentes orçamentos computacionais - por exemplo, elevando a precisão do GPT-OSS-20B no AIME25 de 84% para quase 90% sob orçamentos computacionais fixos. Por fim, consolidamos nossas descobertas em diretrizes empíricas formalizadas para facilitar a implantação ótima em cenários reais. Código, dados e modelos estão disponíveis em https://bijiaxihh.github.io/STOP.

English

Parallel reasoning enhances Large Reasoning Models (LRMs) but incurs prohibitive costs due to futile paths caused by early errors. To mitigate this, path pruning at the prefix level is essential, yet existing research remains fragmented without a standardized framework. In this work, we propose the first systematic taxonomy of path pruning, categorizing methods by their signal source (internal vs. external) and learnability (learnable vs. non-learnable). This classification reveals the unexplored potential of learnable internal methods, motivating our proposal of STOP (Super TOken for Pruning). Extensive evaluations across LRMs ranging from 1.5B to 20B parameters demonstrate that STOP achieves superior effectiveness and efficiency compared to existing baselines. Furthermore, we rigorously validate the scalability of STOP under varying compute budgets - for instance, boosting GPT-OSS-20B accuracy on AIME25 from 84% to nearly 90% under fixed compute budgets. Finally, we distill our findings into formalized empirical guidelines to facilitate optimal real-world deployment. Code, data and models are available at https://bijiaxihh.github.io/STOP

Corte Suas Perdas! Aprendendo a Podar Caminhos Antecipadamente para um Raciocínio Paralelo Eficiente

Cut Your Losses! Learning to Prune Paths Early for Efficient Parallel Reasoning

Resumo

Support