ChatPaper.aiChatPaper

簡潔な推論、大きな成果:難易度を考慮したプロンプトによる長い推論トレースの刈り込み

Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting

May 26, 2025
著者: Yifan Wu, Jingze Shi, Bingheng Wu, Jiayi Zhang, Xiaotian Lin, Nan Tang, Yuyu Luo
cs.AI

要旨

既存の連鎖思考(CoT)蒸留法は、推論能力を基盤モデルに効果的に転移させることができるが、二つの主要な限界に直面している。推論トレースの過剰な冗長性と、問題の難易度に対する適応性の欠如である。長い推論トレースは推論コストを大幅に増加させ、均一な長さの解決策は基盤モデルが適応的な推論戦略を学ぶことを妨げる。これらの問題を解決するため、我々はパフォーマンスの低下なしに推論トレースを動的に短縮する難易度認識プロンプティング(DAP)法を提案する。本手法では、まず大規模な教師モデルが各問題の難易度を判断し、その後、推論トレースを適切な短い長さに書き換えることで、簡潔でありながら完全な推論トレースを生成する。DAPパイプラインを活用し、100Kの簡潔な推論例からなるLiteCoTという蒸留データセットを構築した。その解決策は平均720トークン(典型的なCoTの1/10の長さ)に過ぎない。LiteCoTを使用して、Qwen2.5アーキテクチャに基づくLiter(1.5B、7B、32B)という新しい推論モデルファミリーを蒸留した。実験では、100Kの難易度に応じて選別されたCoTサンプルでファインチューニングされた学生モデルが、800Kの元の長いCoTサンプルで蒸留されたモデルを上回り、トレーニングと推論コストを大幅に削減することが示された。本手法はまた、11の多様なベンチマークにおいて、短い難易度認識CoTが長い連鎖と同等またはそれ以上の精度を達成し、はるかに少ないトークンを使用する。例えば、挑戦的なAIME24試験において、本手法は約5Kの推論トークンを使用して74.2%のPass@1を達成し、より多くのトークンを消費する他の手法を上回った。コードとデータはhttps://github.com/Evanwu1125/LiteCoTで公開されている。
English
Existing chain-of-thought (CoT) distillation methods can effectively transfer reasoning abilities to base models but suffer from two major limitations: excessive verbosity of reasoning traces and inadequate adaptability to problem difficulty. Long reasoning traces significantly increase inference costs, and uniform-length solutions prevent base models from learning adaptive reasoning strategies. To address these issues, we propose a difficulty-aware prompting (DAP) method to dynamically shorten reasoning traces without performance loss. In our approach, a large teacher model first judges each problem's difficulty and then rewrites its reasoning traces to an appropriate shorter length, yielding concise yet complete reasoning traces. Leveraging the DAP pipeline, we curate a distilled dataset called LiteCoT consisting of 100K concise reasoning examples, with solutions averaging only 720 tokens (an order of magnitude shorter than typical CoTs). Using LiteCoT, we distilled a new family of reasoning models called Liter (1.5B, 7B, and 32B) based on the Qwen2.5 architecture. Experiments show that a student model fine-tuned on just 100K of these difficulty-pruned CoT samples outperforms a model distilled on 800K original Long CoT samples, while significantly reducing training and inference costs. Our method also generalizes well: across 11 diverse benchmarks, the shorter difficulty-aware CoTs achieve equal or better accuracy than Long chains, using far fewer tokens. For example, on the challenging AIME24 exam, our approach reaches 74.2% Pass@1 using only about 5K inference tokens, surpassing other methods that consume many more tokens. Our code and data are available at https://github.com/Evanwu1125/LiteCoT.

Summary

AI-Generated Summary

PDF52May 30, 2025