Ускорение параллелизуемых рассуждений через параллельное декодирование в рамках одной последовательности
Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence
March 26, 2025
Авторы: Yijiong Yu
cs.AI
Аннотация
Последние достижения в моделях рассуждений продемонстрировали значительное улучшение точности, особенно для сложных задач, таких как математические рассуждения, благодаря использованию детализированных и всесторонних процессов рассуждения. Однако генерация этих длинных последовательностей рассуждений требует значительных вычислительных ресурсов и времени. Для устранения этой неэффективности мы используем присущую некоторым задачам параллелизуемость для ускорения процесса рассуждения. В частности, когда существует несколько параллельных ветвей рассуждений, мы декодируем несколько токенов за шаг с использованием специализированной маски внимания, обрабатывая их в рамках одной последовательности, что позволяет избежать дополнительного использования памяти. Экспериментальные результаты показывают, что наш метод обеспечивает ускорение времени декодирования более чем на 100% при сохранении качества ответов.
English
Recent advances in reasoning models have demonstrated significant
improvements in accuracy, particularly for complex tasks such as mathematical
reasoning, by employing detailed and comprehensive reasoning processes.
However, generating these lengthy reasoning sequences is computationally
expensive and time-consuming. To address this inefficiency, we leverage the
inherent parallelizability of certain tasks to accelerate the reasoning
process. Specifically, when multiple parallel reasoning branches exist, we
decode multiple tokens per step using a specialized attention mask, processing
them within a single sequence, avoiding additional memory usage. Experimental
results show that our method achieves over 100% speedup in decoding time while
maintaining the answer quality.Summary
AI-Generated Summary