ChatPaper.aiChatPaper

PATS : Commutation Adaptative au Niveau Processus du Mode de Pensée

PATS: Process-Level Adaptive Thinking Mode Switching

May 25, 2025
Auteurs: Yi Wang, Junxiao Liu, Shimao Zhang, Jiajun Chen, Shujian Huang
cs.AI

Résumé

Les modèles de langage à grande échelle (LLMs) actuels adoptent généralement une stratégie de raisonnement fixe, qu'elle soit simple ou complexe, pour toutes les questions, indépendamment de leur difficulté. Cette négligence de la variation dans la complexité des tâches et des processus de raisonnement entraîne un déséquilibre entre performance et efficacité. Les méthodes existantes tentent de mettre en œuvre un système de commutation rapide-lent de la pensée sans entraînement pour gérer des problèmes de difficulté variable, mais elles sont limitées par des ajustements de stratégie au niveau des solutions trop grossiers. Pour résoudre ce problème, nous proposons un nouveau paradigme de raisonnement : le Commutateur de Mode de Pensée Adaptatif au Niveau du Processus (PATS), qui permet aux LLMs d'ajuster dynamiquement leur stratégie de raisonnement en fonction de la difficulté de chaque étape, optimisant ainsi l'équilibre entre précision et efficacité computationnelle. Notre approche intègre des Modèles de Récompense de Processus (PRMs) avec la Recherche en Faisceau, incorporant une commutation progressive de mode et des mécanismes de pénalisation des mauvaises étapes. Les expériences sur divers benchmarks mathématiques démontrent que notre méthodologie atteint une haute précision tout en maintenant une utilisation modérée de tokens. Cette étude met en lumière l'importance de l'adaptation de la stratégie de raisonnement au niveau du processus et consciente de la difficulté, offrant des perspectives précieuses pour l'inférence efficace des LLMs.
English
Current large-language models (LLMs) typically adopt a fixed reasoning strategy, either simple or complex, for all questions, regardless of their difficulty. This neglect of variation in task and reasoning process complexity leads to an imbalance between performance and efficiency. Existing methods attempt to implement training-free fast-slow thinking system switching to handle problems of varying difficulty, but are limited by coarse-grained solution-level strategy adjustments. To address this issue, we propose a novel reasoning paradigm: Process-Level Adaptive Thinking Mode Switching (PATS), which enables LLMs to dynamically adjust their reasoning strategy based on the difficulty of each step, optimizing the balance between accuracy and computational efficiency. Our approach integrates Process Reward Models (PRMs) with Beam Search, incorporating progressive mode switching and bad-step penalty mechanisms. Experiments on diverse mathematical benchmarks demonstrate that our methodology achieves high accuracy while maintaining moderate token usage. This study emphasizes the significance of process-level, difficulty-aware reasoning strategy adaptation, offering valuable insights into efficient inference for LLMs.

Summary

AI-Generated Summary

PDF452May 27, 2025