Переосмысление генерации высококачественных данных CoT с точки зрения адаптивной оценки сложности вопросов для языковых моделей
Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
April 16, 2025
Авторы: Qianjin Yu, Keyu Wu, Zihan Chen, Chushu Zhang, Manlin Mei, Lingjun Huang, Fang Tan, Yongsheng Du, Kunlin Liu, Yurui Zhu
cs.AI
Аннотация
Недавно модель DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) продемонстрировала выдающиеся способности к рассуждению в сложных задачах и открыто поделилась своей методологией. Это предоставляет потенциально высококачественные данные цепочки рассуждений (CoT) для стимулирования способностей к рассуждению у небольших крупных языковых моделей (LLM). Для генерации высококачественных данных CoT для различных LLM мы ищем эффективный метод создания таких данных с адаптивным уровнем сложности вопросов, соответствующим возможностям LLM. Во-первых, мы оцениваем сложность вопросов в зависимости от способности к рассуждению самих LLM и создаем базу данных вопросов с адаптивной сложностью. Во-вторых, мы выбираем задачи из базы данных на основе распределения уровней сложности и затем используем DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) для генерации соответствующих высококачественных данных CoT с правильными ответами. Благодаря созданию данных CoT с адаптивным уровнем сложности, мы значительно снизили затраты на генерацию данных и повысили эффективность контролируемого тонкого обучения (SFT) модели. Наконец, мы подтвердили эффективность и универсальность предложенного метода в областях сложных математических соревнований и задач генерации кода. Примечательно, что всего с 2 тыс. высококачественных математических данных CoT наша модель ZMath-32B превзошла DeepSeek-Distill-32B в задачах математического рассуждения. Аналогично, всего с 2 тыс. высококачественных данных CoT для кода наша модель ZCode-32B превзошла DeepSeek-Distill-32B в задачах генерации кода.
English
Recently, DeepSeek-R1 (671B) (DeepSeek-AIet al., 2025) has demonstrated its
excellent reasoning ability in complex tasks and has publiclyshared its
methodology. This provides potentially high-quality chain-of-thought (CoT) data
for stimulating the reasoning abilities of small-sized large language models
(LLMs). To generate high-quality CoT data for different LLMs, we seek an
efficient method for generating high-quality CoT data with LLM-Adaptive
questiondifficulty levels. First, we grade the difficulty of the questions
according to the reasoning ability of the LLMs themselves and construct a
LLM-Adaptive question database. Second, we sample the problem database based on
a distribution of difficulty levels of the questions and then use DeepSeek-R1
(671B) (DeepSeek-AI et al., 2025) to generate the corresponding high-quality
CoT data with correct answers. Thanks to the construction of CoT data with
LLM-Adaptive difficulty levels, we have significantly reduced the cost of data
generation and enhanced the efficiency of model supervised fine-tuning (SFT).
Finally, we have validated the effectiveness and generalizability of the
proposed method in the fields of complex mathematical competitions and code
generation tasks. Notably, with only 2k high-quality mathematical CoT data, our
ZMath-32B surpasses DeepSeek-Distill-32B in math reasoning task. Similarly,
with only 2k high-quality code CoT data, our ZCode-32B surpasses
DeepSeek-Distill-32B in code reasoning tasks.Summary
AI-Generated Summary