ChatPaper.aiChatPaper

Accélérer le raisonnement parallélisable via un décodage parallèle au sein d'une seule séquence

Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence

March 26, 2025
Auteurs: Yijiong Yu
cs.AI

Résumé

Les récents progrès dans les modèles de raisonnement ont démontré des améliorations significatives en termes de précision, en particulier pour des tâches complexes telles que le raisonnement mathématique, grâce à l'utilisation de processus de raisonnement détaillés et complets. Cependant, la génération de ces séquences de raisonnement longues est coûteuse en calcul et chronophage. Pour remédier à cette inefficacité, nous exploitons le parallélisme inhérent à certaines tâches pour accélérer le processus de raisonnement. Plus précisément, lorsque plusieurs branches de raisonnement parallèles existent, nous décodons plusieurs tokens par étape en utilisant un masque d'attention spécialisé, les traitant au sein d'une seule séquence, évitant ainsi une utilisation supplémentaire de mémoire. Les résultats expérimentaux montrent que notre méthode permet d'obtenir une accélération de plus de 100 % du temps de décodage tout en maintenant la qualité des réponses.
English
Recent advances in reasoning models have demonstrated significant improvements in accuracy, particularly for complex tasks such as mathematical reasoning, by employing detailed and comprehensive reasoning processes. However, generating these lengthy reasoning sequences is computationally expensive and time-consuming. To address this inefficiency, we leverage the inherent parallelizability of certain tasks to accelerate the reasoning process. Specifically, when multiple parallel reasoning branches exist, we decode multiple tokens per step using a specialized attention mask, processing them within a single sequence, avoiding additional memory usage. Experimental results show that our method achieves over 100% speedup in decoding time while maintaining the answer quality.

Summary

AI-Generated Summary

PDF122April 9, 2025