PATS: Modalità di Commutazione Adattiva del Pensiero a Livello di Processo

Abstract

I modelli linguistici di grandi dimensioni (LLM) attuali adottano tipicamente una strategia di ragionamento fissa, semplice o complessa, per tutte le domande, indipendentemente dalla loro difficoltà. Questa mancanza di considerazione per la variazione nella complessità del compito e del processo di ragionamento porta a uno squilibrio tra prestazioni ed efficienza. I metodi esistenti cercano di implementare un sistema di commutazione tra pensiero veloce e lento senza addestramento per gestire problemi di diversa difficoltà, ma sono limitati da aggiustamenti di strategia a livello di soluzione troppo grossolani. Per affrontare questo problema, proponiamo un nuovo paradigma di ragionamento: Process-Level Adaptive Thinking Mode Switching (PATS), che consente agli LLM di adattare dinamicamente la loro strategia di ragionamento in base alla difficoltà di ogni passaggio, ottimizzando il bilanciamento tra accuratezza ed efficienza computazionale. Il nostro approccio integra Process Reward Models (PRM) con la ricerca a fascio, incorporando meccanismi di commutazione progressiva della modalità e penalizzazione dei passaggi errati. Esperimenti su diversi benchmark matematici dimostrano che la nostra metodologia raggiunge un'elevata accuratezza mantenendo un uso moderato di token. Questo studio sottolinea l'importanza dell'adattamento della strategia di ragionamento a livello di processo e consapevole della difficoltà, offrendo spunti preziosi per un'inferenza efficiente negli LLM.

English

Current large-language models (LLMs) typically adopt a fixed reasoning strategy, either simple or complex, for all questions, regardless of their difficulty. This neglect of variation in task and reasoning process complexity leads to an imbalance between performance and efficiency. Existing methods attempt to implement training-free fast-slow thinking system switching to handle problems of varying difficulty, but are limited by coarse-grained solution-level strategy adjustments. To address this issue, we propose a novel reasoning paradigm: Process-Level Adaptive Thinking Mode Switching (PATS), which enables LLMs to dynamically adjust their reasoning strategy based on the difficulty of each step, optimizing the balance between accuracy and computational efficiency. Our approach integrates Process Reward Models (PRMs) with Beam Search, incorporating progressive mode switching and bad-step penalty mechanisms. Experiments on diverse mathematical benchmarks demonstrate that our methodology achieves high accuracy while maintaining moderate token usage. This study emphasizes the significance of process-level, difficulty-aware reasoning strategy adaptation, offering valuable insights into efficient inference for LLMs.

PATS: Modalità di Commutazione Adattiva del Pensiero a Livello di Processo

PATS: Process-Level Adaptive Thinking Mode Switching

Abstract

Support