PATS : Commutation Adaptative au Niveau Processus du Mode de Pensée
PATS: Process-Level Adaptive Thinking Mode Switching
May 25, 2025
Auteurs: Yi Wang, Junxiao Liu, Shimao Zhang, Jiajun Chen, Shujian Huang
cs.AI
Résumé
Les modèles de langage à grande échelle (LLMs) actuels adoptent généralement une stratégie de raisonnement fixe, qu'elle soit simple ou complexe, pour toutes les questions, indépendamment de leur difficulté. Cette négligence de la variation dans la complexité des tâches et des processus de raisonnement entraîne un déséquilibre entre performance et efficacité. Les méthodes existantes tentent de mettre en œuvre un système de commutation rapide-lent de la pensée sans entraînement pour gérer des problèmes de difficulté variable, mais elles sont limitées par des ajustements de stratégie au niveau des solutions trop grossiers. Pour résoudre ce problème, nous proposons un nouveau paradigme de raisonnement : le Commutateur de Mode de Pensée Adaptatif au Niveau du Processus (PATS), qui permet aux LLMs d'ajuster dynamiquement leur stratégie de raisonnement en fonction de la difficulté de chaque étape, optimisant ainsi l'équilibre entre précision et efficacité computationnelle. Notre approche intègre des Modèles de Récompense de Processus (PRMs) avec la Recherche en Faisceau, incorporant une commutation progressive de mode et des mécanismes de pénalisation des mauvaises étapes. Les expériences sur divers benchmarks mathématiques démontrent que notre méthodologie atteint une haute précision tout en maintenant une utilisation modérée de tokens. Cette étude met en lumière l'importance de l'adaptation de la stratégie de raisonnement au niveau du processus et consciente de la difficulté, offrant des perspectives précieuses pour l'inférence efficace des LLMs.
English
Current large-language models (LLMs) typically adopt a fixed reasoning
strategy, either simple or complex, for all questions, regardless of their
difficulty. This neglect of variation in task and reasoning process complexity
leads to an imbalance between performance and efficiency. Existing methods
attempt to implement training-free fast-slow thinking system switching to
handle problems of varying difficulty, but are limited by coarse-grained
solution-level strategy adjustments. To address this issue, we propose a novel
reasoning paradigm: Process-Level Adaptive Thinking Mode Switching (PATS),
which enables LLMs to dynamically adjust their reasoning strategy based on the
difficulty of each step, optimizing the balance between accuracy and
computational efficiency. Our approach integrates Process Reward Models (PRMs)
with Beam Search, incorporating progressive mode switching and bad-step penalty
mechanisms. Experiments on diverse mathematical benchmarks demonstrate that our
methodology achieves high accuracy while maintaining moderate token usage. This
study emphasizes the significance of process-level, difficulty-aware reasoning
strategy adaptation, offering valuable insights into efficient inference for
LLMs.Summary
AI-Generated Summary