Les pensées sont partout : Sur la sous-réflexion des LLM de type o1

papers.abstract

Les grands modèles de langage (LLM) tels que le o1 d'OpenAI ont démontré des capacités remarquables dans des tâches complexes de raisonnement en augmentant la puissance de calcul au moment des tests et en manifestant une réflexion profonde similaire à celle des humains. Cependant, nous identifions un phénomène que nous appelons sous-réflexion, où les LLM de type o1 passent fréquemment d'une pensée de raisonnement à une autre sans explorer suffisamment les voies prometteuses pour parvenir à une solution correcte. Ce comportement entraîne une profondeur de raisonnement insuffisante et une diminution des performances, en particulier sur des problèmes mathématiques complexes. Pour analyser systématiquement ce problème, nous menons des expériences sur trois ensembles de tests difficiles et deux modèles ouverts similaires au o1, révélant que le passage fréquent d'une pensée à une autre est corrélé à des réponses incorrectes. Nous introduisons une nouvelle mesure pour quantifier la sous-réflexion en mesurant l'efficacité des jetons dans les réponses incorrectes. Pour remédier à la sous-réflexion, nous proposons une stratégie de décodage avec une pénalité de passage de pensée (TIP) qui décourage les transitions prématurées entre les pensées, encourageant une exploration plus approfondie de chaque voie de raisonnement. Les résultats expérimentaux montrent que notre approche améliore la précision sur des ensembles de données difficiles sans nécessiter d'ajustement fin du modèle. Nos découvertes contribuent à la compréhension des inefficacités de raisonnement dans les LLM de type o1 et offrent une solution pratique pour améliorer leurs capacités de résolution de problèmes.

English

Large language models (LLMs) such as OpenAI's o1 have demonstrated remarkable abilities in complex reasoning tasks by scaling test-time compute and exhibiting human-like deep thinking. However, we identify a phenomenon we term underthinking, where o1-like LLMs frequently switch between different reasoning thoughts without sufficiently exploring promising paths to reach a correct solution. This behavior leads to inadequate depth of reasoning and decreased performance, particularly on challenging mathematical problems. To systematically analyze this issue, we conduct experiments on three challenging test sets and two representative open-source o1-like models, revealing that frequent thought switching correlates with incorrect responses. We introduce a novel metric to quantify underthinking by measuring token efficiency in incorrect answers. To address underthinking, we propose a decoding strategy with thought switching penalty TIP that discourages premature transitions between thoughts, encouraging deeper exploration of each reasoning path. Experimental results demonstrate that our approach improves accuracy across challenging datasets without requiring model fine-tuning. Our findings contribute to understanding reasoning inefficiencies in o1-like LLMs and offer a practical solution to enhance their problem-solving capabilities.

Les pensées sont partout : Sur la sous-réflexion des LLM de type o1

Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

papers.abstract

Support