ChatPaper.aiChatPaper

Raisonnement Concis, Gains Importants : Élagage des Traces de Raisonnement Longues avec un Prompting Conscient de la Difficulté

Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting

May 26, 2025
Auteurs: Yifan Wu, Jingze Shi, Bingheng Wu, Jiayi Zhang, Xiaotian Lin, Nan Tang, Yuyu Luo
cs.AI

Résumé

Les méthodes existantes de distillation de chaînes de raisonnement (CoT) peuvent transférer efficacement les capacités de raisonnement aux modèles de base, mais elles souffrent de deux limitations majeures : la verbosité excessive des traces de raisonnement et l'adaptabilité insuffisante à la difficulté des problèmes. Les longues traces de raisonnement augmentent significativement les coûts d'inférence, et les solutions de longueur uniforme empêchent les modèles de base d'apprendre des stratégies de raisonnement adaptatives. Pour résoudre ces problèmes, nous proposons une méthode de prompting adaptée à la difficulté (DAP) pour raccourcir dynamiquement les traces de raisonnement sans perte de performance. Dans notre approche, un grand modèle enseignant évalue d'abord la difficulté de chaque problème, puis réécrit ses traces de raisonnement à une longueur appropriée plus courte, produisant ainsi des traces de raisonnement concises mais complètes. En exploitant le pipeline DAP, nous avons constitué un ensemble de données distillé appelé LiteCoT, composé de 100 000 exemples de raisonnement concis, avec des solutions ne dépassant en moyenne que 720 tokens (un ordre de grandeur plus court que les CoT typiques). En utilisant LiteCoT, nous avons distillé une nouvelle famille de modèles de raisonnement appelée Liter (1,5B, 7B et 32B) basée sur l'architecture Qwen2.5. Les expériences montrent qu'un modèle étudiant affiné sur seulement 100 000 de ces échantillons CoT élagués selon la difficulté surpasse un modèle distillé sur 800 000 échantillons CoT originaux longs, tout en réduisant significativement les coûts d'entraînement et d'inférence. Notre méthode généralise également bien : sur 11 benchmarks divers, les CoT plus courts adaptés à la difficulté atteignent une précision égale ou supérieure à celle des longues chaînes, en utilisant beaucoup moins de tokens. Par exemple, sur l'examen difficile AIME24, notre approche atteint 74,2 % de Pass@1 en utilisant seulement environ 5 000 tokens d'inférence, surpassant d'autres méthodes qui consomment beaucoup plus de tokens. Notre code et nos données sont disponibles à l'adresse https://github.com/Evanwu1125/LiteCoT.
English
Existing chain-of-thought (CoT) distillation methods can effectively transfer reasoning abilities to base models but suffer from two major limitations: excessive verbosity of reasoning traces and inadequate adaptability to problem difficulty. Long reasoning traces significantly increase inference costs, and uniform-length solutions prevent base models from learning adaptive reasoning strategies. To address these issues, we propose a difficulty-aware prompting (DAP) method to dynamically shorten reasoning traces without performance loss. In our approach, a large teacher model first judges each problem's difficulty and then rewrites its reasoning traces to an appropriate shorter length, yielding concise yet complete reasoning traces. Leveraging the DAP pipeline, we curate a distilled dataset called LiteCoT consisting of 100K concise reasoning examples, with solutions averaging only 720 tokens (an order of magnitude shorter than typical CoTs). Using LiteCoT, we distilled a new family of reasoning models called Liter (1.5B, 7B, and 32B) based on the Qwen2.5 architecture. Experiments show that a student model fine-tuned on just 100K of these difficulty-pruned CoT samples outperforms a model distilled on 800K original Long CoT samples, while significantly reducing training and inference costs. Our method also generalizes well: across 11 diverse benchmarks, the shorter difficulty-aware CoTs achieve equal or better accuracy than Long chains, using far fewer tokens. For example, on the challenging AIME24 exam, our approach reaches 74.2% Pass@1 using only about 5K inference tokens, surpassing other methods that consume many more tokens. Our code and data are available at https://github.com/Evanwu1125/LiteCoT.

Summary

AI-Generated Summary

PDF52May 30, 2025