ChatPaper.aiChatPaper

Ne pensez PAS trop pour 2+3=? Sur la surréflexion des LLM de type o1

Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

December 30, 2024
Auteurs: Xingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He, Jianhui Pang, Dian Yu, Linfeng Song, Qiuzhi Liu, Mengfei Zhou, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI

Résumé

La performance remarquable des modèles tels que l'OpenAI o1 peut être attribuée à leur capacité à émuler une réflexion à long terme semblable à celle des humains lors de l'inférence. Ces modèles utilisent des processus de chaîne de pensée étendue (CoT), explorant plusieurs stratégies pour améliorer les capacités de résolution de problèmes. Cependant, une question cruciale demeure : comment mettre à l'échelle de manière intelligente et efficace les ressources computationnelles lors des tests. Cet article présente la première étude complète sur le problème prévalent de la surréflexion dans ces modèles, où des ressources computationnelles excessives sont allouées pour des problèmes simples avec un bénéfice minimal. Nous introduisons de nouvelles mesures d'efficacité des deux perspectives, résultat et processus, pour évaluer l'utilisation rationnelle des ressources computationnelles par des modèles similaires à o1. En utilisant un paradigme d'auto-apprentissage, nous proposons des stratégies pour atténuer la surréflexion, rationalisant les processus de raisonnement sans compromettre la précision. Les résultats expérimentaux montrent que notre approche réduit avec succès la surcharge computationnelle tout en préservant la performance du modèle sur une gamme de jeux de tests avec des niveaux de difficulté variables, tels que GSM8K, MATH500, GPQA et AIME.
English
The remarkable performance of models like the OpenAI o1 can be attributed to their ability to emulate human-like long-time thinking during inference. These models employ extended chain-of-thought (CoT) processes, exploring multiple strategies to enhance problem-solving capabilities. However, a critical question remains: How to intelligently and efficiently scale computational resources during testing. This paper presents the first comprehensive study on the prevalent issue of overthinking in these models, where excessive computational resources are allocated for simple problems with minimal benefit. We introduce novel efficiency metrics from both outcome and process perspectives to evaluate the rational use of computational resources by o1-like models. Using a self-training paradigm, we propose strategies to mitigate overthinking, streamlining reasoning processes without compromising accuracy. Experimental results show that our approach successfully reduces computational overhead while preserving model performance across a range of testsets with varying difficulty levels, such as GSM8K, MATH500, GPQA, and AIME.

Summary

AI-Generated Summary

PDF422December 31, 2024