ChatPaper.aiChatPaper

Acelere o raciocínio paralelizável por meio de decodificação paralela dentro de uma única sequência

Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence

March 26, 2025
Autores: Yijiong Yu
cs.AI

Resumo

Avanços recentes em modelos de raciocínio demonstraram melhorias significativas na precisão, particularmente para tarefas complexas como raciocínio matemático, ao empregar processos de raciocínio detalhados e abrangentes. No entanto, gerar essas sequências longas de raciocínio é computacionalmente caro e demorado. Para abordar essa ineficiência, aproveitamos a paralelização inerente de certas tarefas para acelerar o processo de raciocínio. Especificamente, quando existem múltiplos ramos de raciocínio paralelos, decodificamos vários tokens por etapa usando uma máscara de atenção especializada, processando-os dentro de uma única sequência, evitando o uso adicional de memória. Resultados experimentais mostram que nosso método alcança uma aceleração de mais de 100% no tempo de decodificação, mantendo a qualidade das respostas.
English
Recent advances in reasoning models have demonstrated significant improvements in accuracy, particularly for complex tasks such as mathematical reasoning, by employing detailed and comprehensive reasoning processes. However, generating these lengthy reasoning sequences is computationally expensive and time-consuming. To address this inefficiency, we leverage the inherent parallelizability of certain tasks to accelerate the reasoning process. Specifically, when multiple parallel reasoning branches exist, we decode multiple tokens per step using a specialized attention mask, processing them within a single sequence, avoiding additional memory usage. Experimental results show that our method achieves over 100% speedup in decoding time while maintaining the answer quality.

Summary

AI-Generated Summary

PDF122April 9, 2025