LLMの推論能力をスケーラブルな質問合成によってゼロから引き出す
Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch
October 24, 2024
著者: Yuyang Ding, Xinyu Shi, Xiaobo Liang, Juntao Li, Qiaoming Zhu, Min Zhang
cs.AI
要旨
高品質のデータの利用可能性は、LLMの推論能力を向上させる上で最も重要な要因の1つです。既存の研究では、シード質問や知識ベースからより多くの指示データを作成することの効果が示されています。最近の研究によると、強力なモデル(例:GPT-4)からのデータ合成の継続的なスケーリングアップは、推論パフォーマンスをさらに引き出すことができます。有望なものの、オープンソースコミュニティにはまだ規模の大きな高品質データと手頃なコストでスケーラブルなデータ合成方法が不足しています。この課題に対処するために、我々はScaleQuestを導入します。これは、"small-size"(例:7B)のオープンソースモデルを活用して、複雑な拡張制約を必要とせずにゼロから質問を生成するスケーラブルで革新的なデータ合成方法です。効率的なScaleQuestにより、数学的推論データセットが自動的に構築され、100万の問題解決ペアが含まれています。これらは既存のオープンソースデータセットよりも効果的です。これは、主要なオープンソースモデル(すなわち、Mistral、Llama3、DeepSeekMath、およびQwen2-Math)のパフォーマンスを普遍的に向上させ、MATHで29.2%から46.4%の利益をもたらします。特筆すべきは、単に当社のデータセットでQwen2-Math-7B-Baseモデルを微調整するだけで、クローズドソースデータ上の強力で適合したモデルであるQwen2-Math-7B-Instructをさえも上回ることができ、GPT-4-TurboやClaude-3.5 Sonnetなどのプロプライエタリモデルを凌駕することができます。
English
The availability of high-quality data is one of the most important factors in
improving the reasoning capability of LLMs. Existing works have demonstrated
the effectiveness of creating more instruction data from seed questions or
knowledge bases. Recent research indicates that continually scaling up data
synthesis from strong models (e.g., GPT-4) can further elicit reasoning
performance. Though promising, the open-sourced community still lacks
high-quality data at scale and scalable data synthesis methods with affordable
costs. To address this, we introduce ScaleQuest, a scalable and novel data
synthesis method that utilizes "small-size" (e.g., 7B) open-source models to
generate questions from scratch without the need for seed data with complex
augmentation constraints. With the efficient ScaleQuest, we automatically
constructed a mathematical reasoning dataset consisting of 1 million
problem-solution pairs, which are more effective than existing open-sourced
datasets. It can universally increase the performance of mainstream open-source
models (i.e., Mistral, Llama3, DeepSeekMath, and Qwen2-Math) by achieving 29.2%
to 46.4% gains on MATH. Notably, simply fine-tuning the Qwen2-Math-7B-Base
model with our dataset can even surpass Qwen2-Math-7B-Instruct, a strong and
well-aligned model on closed-source data, and proprietary models such as
GPT-4-Turbo and Claude-3.5 Sonnet.Summary
AI-Generated Summary