Обучение адаптивного параллельного рассуждения с использованием языковых моделей

Аннотация

Масштабирование вычислений на этапе вывода существенно улучшило способности языковых моделей к рассуждению. Однако существующие методы имеют значительные ограничения: последовательные подходы, такие как цепочка рассуждений, генерируют излишне длинные выходные данные, что приводит к увеличению задержек и исчерпанию контекстных окон, в то время как параллельные методы, такие как самосогласованность, страдают от недостаточной координации, что приводит к избыточным вычислениям и ограниченному повышению производительности. Для устранения этих недостатков мы предлагаем Adaptive Parallel Reasoning (APR) — новый фреймворк для рассуждений, который позволяет языковым моделям управлять как последовательными, так и параллельными вычислениями на сквозной основе. APR обобщает существующие методы рассуждений, позволяя адаптивное многопоточное выполнение выводов с использованием операций spawn() и join(). Ключевым нововведением является наша сквозная стратегия обучения с подкреплением, которая оптимизирует как родительские, так и дочерние потоки вывода для повышения успешности выполнения задач без необходимости предопределенных структур рассуждений. Эксперименты на задаче Countdown демонстрируют значительные преимущества APR: (1) более высокая производительность в рамках того же контекстного окна (83,4% против 60,0% при 4k контекста); (2) превосходная масштабируемость с увеличением объема вычислений (80,1% против 66,6% при 20k общих токенов); (3) улучшенная точность при эквивалентной задержке (75,2% против 57,3% при примерно 5000 мс). APR представляет собой шаг к тому, чтобы языковые модели могли автономно оптимизировать свои процессы рассуждений за счет адаптивного распределения вычислений.

English

Scaling inference-time computation has substantially improved the reasoning capabilities of language models. However, existing methods have significant limitations: serialized chain-of-thought approaches generate overly long outputs, leading to increased latency and exhausted context windows, while parallel methods such as self-consistency suffer from insufficient coordination, resulting in redundant computations and limited performance gains. To address these shortcomings, we propose Adaptive Parallel Reasoning (APR), a novel reasoning framework that enables language models to orchestrate both serialized and parallel computations end-to-end. APR generalizes existing reasoning methods by enabling adaptive multi-threaded inference using spawn() and join() operations. A key innovation is our end-to-end reinforcement learning strategy, optimizing both parent and child inference threads to enhance task success rate without requiring predefined reasoning structures. Experiments on the Countdown reasoning task demonstrate significant benefits of APR: (1) higher performance within the same context window (83.4% vs. 60.0% at 4k context); (2) superior scalability with increased computation (80.1% vs. 66.6% at 20k total tokens); (3) improved accuracy at equivalent latency (75.2% vs. 57.3% at approximately 5,000ms). APR represents a step towards enabling language models to autonomously optimize their reasoning processes through adaptive allocation of computation.

Обучение адаптивного параллельного рассуждения с использованием языковых моделей

Learning Adaptive Parallel Reasoning with Language Models

Аннотация

Support