PATS: Modo de Conmutación Adaptativa del Pensamiento a Nivel de Proceso
PATS: Process-Level Adaptive Thinking Mode Switching
May 25, 2025
Autores: Yi Wang, Junxiao Liu, Shimao Zhang, Jiajun Chen, Shujian Huang
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) actuales suelen adoptar una estrategia de razonamiento fija, ya sea simple o compleja, para todas las preguntas, independientemente de su dificultad. Esta falta de consideración de la variación en la complejidad de las tareas y los procesos de razonamiento conduce a un desequilibrio entre el rendimiento y la eficiencia. Los métodos existentes intentan implementar un sistema de conmutación entre pensamiento rápido y lento sin necesidad de entrenamiento para abordar problemas de diversa dificultad, pero están limitados por ajustes de estrategia a nivel de solución de grano grueso. Para abordar este problema, proponemos un nuevo paradigma de razonamiento: Conmutación Adaptativa del Modo de Pensamiento a Nivel de Proceso (PATS, por sus siglas en inglés), que permite a los LLMs ajustar dinámicamente su estrategia de razonamiento según la dificultad de cada paso, optimizando el equilibrio entre precisión y eficiencia computacional. Nuestro enfoque integra Modelos de Recompensa de Proceso (PRMs, por sus siglas en inglés) con Búsqueda por Haz, incorporando mecanismos de conmutación progresiva de modos y penalización de pasos erróneos. Los experimentos en diversos benchmarks matemáticos demuestran que nuestra metodología logra una alta precisión mientras mantiene un uso moderado de tokens. Este estudio enfatiza la importancia de la adaptación de estrategias de razonamiento conscientes de la dificultad a nivel de proceso, ofreciendo insights valiosos para la inferencia eficiente en LLMs.
English
Current large-language models (LLMs) typically adopt a fixed reasoning
strategy, either simple or complex, for all questions, regardless of their
difficulty. This neglect of variation in task and reasoning process complexity
leads to an imbalance between performance and efficiency. Existing methods
attempt to implement training-free fast-slow thinking system switching to
handle problems of varying difficulty, but are limited by coarse-grained
solution-level strategy adjustments. To address this issue, we propose a novel
reasoning paradigm: Process-Level Adaptive Thinking Mode Switching (PATS),
which enables LLMs to dynamically adjust their reasoning strategy based on the
difficulty of each step, optimizing the balance between accuracy and
computational efficiency. Our approach integrates Process Reward Models (PRMs)
with Beam Search, incorporating progressive mode switching and bad-step penalty
mechanisms. Experiments on diverse mathematical benchmarks demonstrate that our
methodology achieves high accuracy while maintaining moderate token usage. This
study emphasizes the significance of process-level, difficulty-aware reasoning
strategy adaptation, offering valuable insights into efficient inference for
LLMs.Summary
AI-Generated Summary