ChatPaper.aiChatPaper

Les pensées sont partout : Sur la sous-réflexion des LLM de type o1

Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

January 30, 2025
Auteurs: Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI

Résumé

Les grands modèles de langage (LLM) tels que le o1 d'OpenAI ont démontré des capacités remarquables dans des tâches complexes de raisonnement en augmentant la puissance de calcul au moment des tests et en manifestant une réflexion profonde similaire à celle des humains. Cependant, nous identifions un phénomène que nous appelons sous-réflexion, où les LLM de type o1 passent fréquemment d'une pensée de raisonnement à une autre sans explorer suffisamment les voies prometteuses pour parvenir à une solution correcte. Ce comportement entraîne une profondeur de raisonnement insuffisante et une diminution des performances, en particulier sur des problèmes mathématiques complexes. Pour analyser systématiquement ce problème, nous menons des expériences sur trois ensembles de tests difficiles et deux modèles ouverts similaires au o1, révélant que le passage fréquent d'une pensée à une autre est corrélé à des réponses incorrectes. Nous introduisons une nouvelle mesure pour quantifier la sous-réflexion en mesurant l'efficacité des jetons dans les réponses incorrectes. Pour remédier à la sous-réflexion, nous proposons une stratégie de décodage avec une pénalité de passage de pensée (TIP) qui décourage les transitions prématurées entre les pensées, encourageant une exploration plus approfondie de chaque voie de raisonnement. Les résultats expérimentaux montrent que notre approche améliore la précision sur des ensembles de données difficiles sans nécessiter d'ajustement fin du modèle. Nos découvertes contribuent à la compréhension des inefficacités de raisonnement dans les LLM de type o1 et offrent une solution pratique pour améliorer leurs capacités de résolution de problèmes.
English
Large language models (LLMs) such as OpenAI's o1 have demonstrated remarkable abilities in complex reasoning tasks by scaling test-time compute and exhibiting human-like deep thinking. However, we identify a phenomenon we term underthinking, where o1-like LLMs frequently switch between different reasoning thoughts without sufficiently exploring promising paths to reach a correct solution. This behavior leads to inadequate depth of reasoning and decreased performance, particularly on challenging mathematical problems. To systematically analyze this issue, we conduct experiments on three challenging test sets and two representative open-source o1-like models, revealing that frequent thought switching correlates with incorrect responses. We introduce a novel metric to quantify underthinking by measuring token efficiency in incorrect answers. To address underthinking, we propose a decoding strategy with thought switching penalty TIP that discourages premature transitions between thoughts, encouraging deeper exploration of each reasoning path. Experimental results demonstrate that our approach improves accuracy across challenging datasets without requiring model fine-tuning. Our findings contribute to understanding reasoning inefficiencies in o1-like LLMs and offer a practical solution to enhance their problem-solving capabilities.

Summary

AI-Generated Summary

PDF6111January 31, 2025