O1-Pruner : Ajustement fin d'harmonisation de longueur pour l'élagage du raisonnement de type O1
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning
January 22, 2025
Auteurs: Haotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao
cs.AI
Résumé
Récemment, des LLM de raisonnement à longue réflexion, tels que l'O1 d'OpenAI, adoptent des processus de raisonnement étendus similaires à la façon dont les humains réfléchissent sur des problèmes complexes. Ce paradigme de raisonnement améliore significativement les capacités de résolution de problèmes du modèle et a obtenu des résultats prometteurs. Cependant, le processus de raisonnement à longue réflexion entraîne une augmentation substantielle du temps d'inférence. Un défi pressant est de réduire la surcharge d'inférence des LLM à longue réflexion tout en garantissant la précision. Dans cet article, nous démontrons expérimentalement que les modèles de raisonnement à longue réflexion ont du mal à allouer efficacement des budgets de jetons en fonction de la difficulté du problème et des redondances de raisonnement. Pour remédier à cela, nous proposons un Ajustement Harmonisant de la Longueur (O1-Pruner), visant à minimiser la surcharge de raisonnement tout en maintenant la précision. Cette méthode efficace d'ajustement commence par estimer les performances de base du LLM par pré-échantillonnage, puis utilise un ajustement de style RL pour encourager le modèle à générer des processus de raisonnement plus courts sous contraintes de précision. Cela permet au modèle d'atteindre un raisonnement efficace avec moins de redondance tout en maintenant la précision. Les expériences menées sur divers bancs d'essai de raisonnement mathématique montrent que l'O1-Pruner réduit non seulement considérablement la surcharge d'inférence, mais atteint également une précision plus élevée, offrant ainsi une solution nouvelle et prometteuse à ce défi. Notre code sera bientôt disponible sur https://github.com/StarDewXXX/O1-Pruner
English
Recently, long-thought reasoning LLMs, such as OpenAI's O1, adopt extended
reasoning processes similar to how humans ponder over complex problems. This
reasoning paradigm significantly enhances the model's problem-solving abilities
and has achieved promising results. However, long-thought reasoning process
leads to a substantial increase in inference time. A pressing challenge is
reducing the inference overhead of long-thought LLMs while ensuring accuracy.
In this paper, we experimentally demonstrate that long-thought reasoning models
struggle to effectively allocate token budgets based on problem difficulty and
reasoning redundancies. To address this, we propose Length-Harmonizing
Fine-Tuning (O1-Pruner), aiming at minimizing reasoning overhead while
maintaining accuracy. This effective fine-tuning method first estimates the
LLM's baseline performance through pre-sampling and then uses RL-style
fine-tuning to encourage the model to generate shorter reasoning processes
under accuracy constraints. This allows the model to achieve efficient
reasoning with lower redundancy while maintaining accuracy. Experiments on
various mathematical reasoning benchmarks show that O1-Pruner not only
significantly reduces inference overhead but also achieves higher accuracy,
providing a novel and promising solution to this challenge. Our code is coming
soon at https://github.com/StarDewXXX/O1-PrunerSummary
AI-Generated Summary