Acelerar el razonamiento paralelizable mediante decodificación paralela dentro de una secuencia
Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence
March 26, 2025
Autores: Yijiong Yu
cs.AI
Resumen
Los avances recientes en modelos de razonamiento han demostrado mejoras significativas en precisión, particularmente para tareas complejas como el razonamiento matemático, mediante el uso de procesos de razonamiento detallados y exhaustivos. Sin embargo, generar estas secuencias extensas de razonamiento es computacionalmente costoso y consume mucho tiempo. Para abordar esta ineficiencia, aprovechamos el paralelismo inherente de ciertas tareas para acelerar el proceso de razonamiento. Específicamente, cuando existen múltiples ramas de razonamiento paralelas, decodificamos múltiples tokens por paso utilizando una máscara de atención especializada, procesándolos dentro de una única secuencia y evitando el uso adicional de memoria. Los resultados experimentales muestran que nuestro método logra una aceleración de más del 100% en el tiempo de decodificación mientras mantiene la calidad de las respuestas.
English
Recent advances in reasoning models have demonstrated significant
improvements in accuracy, particularly for complex tasks such as mathematical
reasoning, by employing detailed and comprehensive reasoning processes.
However, generating these lengthy reasoning sequences is computationally
expensive and time-consuming. To address this inefficiency, we leverage the
inherent parallelizability of certain tasks to accelerate the reasoning
process. Specifically, when multiple parallel reasoning branches exist, we
decode multiple tokens per step using a specialized attention mask, processing
them within a single sequence, avoiding additional memory usage. Experimental
results show that our method achieves over 100% speedup in decoding time while
maintaining the answer quality.Summary
AI-Generated Summary