PATS: Адаптивное переключение режимов мышления на уровне процессов
PATS: Process-Level Adaptive Thinking Mode Switching
May 25, 2025
Авторы: Yi Wang, Junxiao Liu, Shimao Zhang, Jiajun Chen, Shujian Huang
cs.AI
Аннотация
Современные крупные языковые модели (LLM) обычно используют фиксированную стратегию рассуждений, будь то простая или сложная, для всех вопросов, независимо от их сложности. Это игнорирование вариативности задач и сложности процесса рассуждений приводит к дисбалансу между производительностью и эффективностью. Существующие методы пытаются реализовать переключение между системами быстрого и медленного мышления без дополнительного обучения для решения задач различной сложности, но ограничиваются грубыми настройками стратегий на уровне решений. Чтобы решить эту проблему, мы предлагаем новую парадигму рассуждений: Переключение режимов мышления с адаптацией на уровне процесса (PATS), которая позволяет LLM динамически корректировать стратегию рассуждений в зависимости от сложности каждого шага, оптимизируя баланс между точностью и вычислительной эффективностью. Наш подход интегрирует Модели вознаграждения на уровне процесса (PRM) с Поиском по лучу, включая прогрессивное переключение режимов и механизмы штрафов за ошибочные шаги. Эксперименты на различных математических тестах демонстрируют, что наш метод достигает высокой точности при умеренном использовании токенов. Это исследование подчеркивает важность адаптации стратегий рассуждений на уровне процесса с учетом сложности, предлагая ценные инсайты для эффективного вывода в LLM.
English
Current large-language models (LLMs) typically adopt a fixed reasoning
strategy, either simple or complex, for all questions, regardless of their
difficulty. This neglect of variation in task and reasoning process complexity
leads to an imbalance between performance and efficiency. Existing methods
attempt to implement training-free fast-slow thinking system switching to
handle problems of varying difficulty, but are limited by coarse-grained
solution-level strategy adjustments. To address this issue, we propose a novel
reasoning paradigm: Process-Level Adaptive Thinking Mode Switching (PATS),
which enables LLMs to dynamically adjust their reasoning strategy based on the
difficulty of each step, optimizing the balance between accuracy and
computational efficiency. Our approach integrates Process Reward Models (PRMs)
with Beam Search, incorporating progressive mode switching and bad-step penalty
mechanisms. Experiments on diverse mathematical benchmarks demonstrate that our
methodology achieves high accuracy while maintaining moderate token usage. This
study emphasizes the significance of process-level, difficulty-aware reasoning
strategy adaptation, offering valuable insights into efficient inference for
LLMs.Summary
AI-Generated Summary