ChatPaper.aiChatPaper

O1-Pruner : Ajustement fin d'harmonisation de longueur pour l'élagage du raisonnement de type O1

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

January 22, 2025
Auteurs: Haotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao
cs.AI

Résumé

Récemment, des LLM de raisonnement à longue réflexion, tels que l'O1 d'OpenAI, adoptent des processus de raisonnement étendus similaires à la façon dont les humains réfléchissent sur des problèmes complexes. Ce paradigme de raisonnement améliore significativement les capacités de résolution de problèmes du modèle et a obtenu des résultats prometteurs. Cependant, le processus de raisonnement à longue réflexion entraîne une augmentation substantielle du temps d'inférence. Un défi pressant est de réduire la surcharge d'inférence des LLM à longue réflexion tout en garantissant la précision. Dans cet article, nous démontrons expérimentalement que les modèles de raisonnement à longue réflexion ont du mal à allouer efficacement des budgets de jetons en fonction de la difficulté du problème et des redondances de raisonnement. Pour remédier à cela, nous proposons un Ajustement Harmonisant de la Longueur (O1-Pruner), visant à minimiser la surcharge de raisonnement tout en maintenant la précision. Cette méthode efficace d'ajustement commence par estimer les performances de base du LLM par pré-échantillonnage, puis utilise un ajustement de style RL pour encourager le modèle à générer des processus de raisonnement plus courts sous contraintes de précision. Cela permet au modèle d'atteindre un raisonnement efficace avec moins de redondance tout en maintenant la précision. Les expériences menées sur divers bancs d'essai de raisonnement mathématique montrent que l'O1-Pruner réduit non seulement considérablement la surcharge d'inférence, mais atteint également une précision plus élevée, offrant ainsi une solution nouvelle et prometteuse à ce défi. Notre code sera bientôt disponible sur https://github.com/StarDewXXX/O1-Pruner
English
Recently, long-thought reasoning LLMs, such as OpenAI's O1, adopt extended reasoning processes similar to how humans ponder over complex problems. This reasoning paradigm significantly enhances the model's problem-solving abilities and has achieved promising results. However, long-thought reasoning process leads to a substantial increase in inference time. A pressing challenge is reducing the inference overhead of long-thought LLMs while ensuring accuracy. In this paper, we experimentally demonstrate that long-thought reasoning models struggle to effectively allocate token budgets based on problem difficulty and reasoning redundancies. To address this, we propose Length-Harmonizing Fine-Tuning (O1-Pruner), aiming at minimizing reasoning overhead while maintaining accuracy. This effective fine-tuning method first estimates the LLM's baseline performance through pre-sampling and then uses RL-style fine-tuning to encourage the model to generate shorter reasoning processes under accuracy constraints. This allows the model to achieve efficient reasoning with lower redundancy while maintaining accuracy. Experiments on various mathematical reasoning benchmarks show that O1-Pruner not only significantly reduces inference overhead but also achieves higher accuracy, providing a novel and promising solution to this challenge. Our code is coming soon at https://github.com/StarDewXXX/O1-Pruner

Summary

AI-Generated Summary

PDF282January 23, 2025