Ускорение параллелизуемых рассуждений через параллельное декодирование в рамках одной последовательности

Аннотация

Последние достижения в моделях рассуждений продемонстрировали значительное улучшение точности, особенно для сложных задач, таких как математические рассуждения, благодаря использованию детализированных и всесторонних процессов рассуждения. Однако генерация этих длинных последовательностей рассуждений требует значительных вычислительных ресурсов и времени. Для устранения этой неэффективности мы используем присущую некоторым задачам параллелизуемость для ускорения процесса рассуждения. В частности, когда существует несколько параллельных ветвей рассуждений, мы декодируем несколько токенов за шаг с использованием специализированной маски внимания, обрабатывая их в рамках одной последовательности, что позволяет избежать дополнительного использования памяти. Экспериментальные результаты показывают, что наш метод обеспечивает ускорение времени декодирования более чем на 100% при сохранении качества ответов.

English

Recent advances in reasoning models have demonstrated significant improvements in accuracy, particularly for complex tasks such as mathematical reasoning, by employing detailed and comprehensive reasoning processes. However, generating these lengthy reasoning sequences is computationally expensive and time-consuming. To address this inefficiency, we leverage the inherent parallelizability of certain tasks to accelerate the reasoning process. Specifically, when multiple parallel reasoning branches exist, we decode multiple tokens per step using a specialized attention mask, processing them within a single sequence, avoiding additional memory usage. Experimental results show that our method achieves over 100% speedup in decoding time while maintaining the answer quality.

Ускорение параллелизуемых рассуждений через параллельное декодирование в рамках одной последовательности

Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence

Аннотация

Support