Les pensées sont partout : Sur la sous-réflexion des LLM de type o1
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
January 30, 2025
Auteurs: Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI
Résumé
Les grands modèles de langage (LLM) tels que le o1 d'OpenAI ont démontré des capacités remarquables dans des tâches complexes de raisonnement en augmentant la puissance de calcul au moment des tests et en manifestant une réflexion profonde similaire à celle des humains. Cependant, nous identifions un phénomène que nous appelons sous-réflexion, où les LLM de type o1 passent fréquemment d'une pensée de raisonnement à une autre sans explorer suffisamment les voies prometteuses pour parvenir à une solution correcte. Ce comportement entraîne une profondeur de raisonnement insuffisante et une diminution des performances, en particulier sur des problèmes mathématiques complexes. Pour analyser systématiquement ce problème, nous menons des expériences sur trois ensembles de tests difficiles et deux modèles ouverts similaires au o1, révélant que le passage fréquent d'une pensée à une autre est corrélé à des réponses incorrectes. Nous introduisons une nouvelle mesure pour quantifier la sous-réflexion en mesurant l'efficacité des jetons dans les réponses incorrectes. Pour remédier à la sous-réflexion, nous proposons une stratégie de décodage avec une pénalité de passage de pensée (TIP) qui décourage les transitions prématurées entre les pensées, encourageant une exploration plus approfondie de chaque voie de raisonnement. Les résultats expérimentaux montrent que notre approche améliore la précision sur des ensembles de données difficiles sans nécessiter d'ajustement fin du modèle. Nos découvertes contribuent à la compréhension des inefficacités de raisonnement dans les LLM de type o1 et offrent une solution pratique pour améliorer leurs capacités de résolution de problèmes.
English
Large language models (LLMs) such as OpenAI's o1 have demonstrated remarkable
abilities in complex reasoning tasks by scaling test-time compute and
exhibiting human-like deep thinking. However, we identify a phenomenon we term
underthinking, where o1-like LLMs frequently switch between different reasoning
thoughts without sufficiently exploring promising paths to reach a correct
solution. This behavior leads to inadequate depth of reasoning and decreased
performance, particularly on challenging mathematical problems. To
systematically analyze this issue, we conduct experiments on three challenging
test sets and two representative open-source o1-like models, revealing that
frequent thought switching correlates with incorrect responses. We introduce a
novel metric to quantify underthinking by measuring token efficiency in
incorrect answers. To address underthinking, we propose a decoding strategy
with thought switching penalty TIP that discourages premature transitions
between thoughts, encouraging deeper exploration of each reasoning path.
Experimental results demonstrate that our approach improves accuracy across
challenging datasets without requiring model fine-tuning. Our findings
contribute to understanding reasoning inefficiencies in o1-like LLMs and offer
a practical solution to enhance their problem-solving capabilities.Summary
AI-Generated Summary