Развитие способности к рассуждениям LLM через масштабируемый синтез вопросов с нуля
Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch
October 24, 2024
Авторы: Yuyang Ding, Xinyu Shi, Xiaobo Liang, Juntao Li, Qiaoming Zhu, Min Zhang
cs.AI
Аннотация
Наличие высококачественных данных является одним из самых важных факторов для улучшения способности рассуждения LLM. Существующие работы продемонстрировали эффективность создания дополнительных данных для обучения на основе исходных вопросов или баз знаний. Недавние исследования показывают, что постоянное увеличение синтеза данных с помощью мощных моделей (например, GPT-4) может дополнительно стимулировать способность к рассуждениям. Несмотря на перспективность, сообщество с открытым исходным кодом по-прежнему испытывает недостаток высококачественных данных в масштабе и методов масштабируемого синтеза данных с доступными затратами. Для решения этой проблемы мы представляем ScaleQuest, масштабируемый и новаторский метод синтеза данных, который использует "маленькие" (например, 7B) модели с открытым исходным кодом для генерации вопросов с нуля без необходимости исходных данных с сложными ограничениями на увеличение. С помощью эффективного ScaleQuest мы автоматически создали набор данных для математических рассуждений, состоящий из миллиона пар задач-решений, которые оказались более эффективными, чем существующие наборы данных с открытым исходным кодом. Это универсально повышает производительность основных моделей с открытым исходным кодом (например, Mistral, Llama3, DeepSeekMath и Qwen2-Math), достигая улучшений от 29,2% до 46,4% на MATH. Следует отметить, что простое донастройка модели Qwen2-Math-7B-Base с использованием нашего набора данных может даже превзойти Qwen2-Math-7B-Instruct, мощную и хорошо настроенную модель на закрытых данных, а также собственные модели, такие как GPT-4-Turbo и Claude-3.5 Sonnet.
English
The availability of high-quality data is one of the most important factors in
improving the reasoning capability of LLMs. Existing works have demonstrated
the effectiveness of creating more instruction data from seed questions or
knowledge bases. Recent research indicates that continually scaling up data
synthesis from strong models (e.g., GPT-4) can further elicit reasoning
performance. Though promising, the open-sourced community still lacks
high-quality data at scale and scalable data synthesis methods with affordable
costs. To address this, we introduce ScaleQuest, a scalable and novel data
synthesis method that utilizes "small-size" (e.g., 7B) open-source models to
generate questions from scratch without the need for seed data with complex
augmentation constraints. With the efficient ScaleQuest, we automatically
constructed a mathematical reasoning dataset consisting of 1 million
problem-solution pairs, which are more effective than existing open-sourced
datasets. It can universally increase the performance of mainstream open-source
models (i.e., Mistral, Llama3, DeepSeekMath, and Qwen2-Math) by achieving 29.2%
to 46.4% gains on MATH. Notably, simply fine-tuning the Qwen2-Math-7B-Base
model with our dataset can even surpass Qwen2-Math-7B-Instruct, a strong and
well-aligned model on closed-source data, and proprietary models such as
GPT-4-Turbo and Claude-3.5 Sonnet.Summary
AI-Generated Summary