ChatPaper.aiChatPaper

Ripensare la generazione di dati CoT di alta qualità dalla prospettiva della classificazione adattiva della difficoltà delle domande per LLM

Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading

April 16, 2025
Autori: Qianjin Yu, Keyu Wu, Zihan Chen, Chushu Zhang, Manlin Mei, Lingjun Huang, Fang Tan, Yongsheng Du, Kunlin Liu, Yurui Zhu
cs.AI

Abstract

Recentemente, DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) ha dimostrato eccellenti capacità di ragionamento in compiti complessi e ha condiviso pubblicamente la sua metodologia. Ciò fornisce dati di catena di pensiero (CoT) di potenzialmente alta qualità per stimolare le capacità di ragionamento di modelli linguistici di grandi dimensioni (LLM) di piccole dimensioni. Per generare dati CoT di alta qualità per diversi LLM, cerchiamo un metodo efficiente per generare dati CoT di alta qualità con livelli di difficoltà delle domande adattati agli LLM. In primo luogo, classifichiamo la difficoltà delle domande in base alla capacità di ragionamento degli LLM stessi e costruiamo un database di domande adattato agli LLM. In secondo luogo, campioniamo il database dei problemi in base a una distribuzione dei livelli di difficoltà delle domande e poi utilizziamo DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) per generare i corrispondenti dati CoT di alta qualità con risposte corrette. Grazie alla costruzione di dati CoT con livelli di difficoltà adattati agli LLM, abbiamo ridotto significativamente il costo della generazione dei dati e migliorato l'efficienza del fine-tuning supervisionato (SFT) del modello. Infine, abbiamo validato l'efficacia e la generalizzabilità del metodo proposto nei campi delle competizioni matematiche complesse e dei compiti di generazione di codice. In particolare, con soli 2k dati CoT matematici di alta qualità, il nostro ZMath-32B supera DeepSeek-Distill-32B nel compito di ragionamento matematico. Allo stesso modo, con soli 2k dati CoT di codice di alta qualità, il nostro ZCode-32B supera DeepSeek-Distill-32B nei compiti di ragionamento sul codice.
English
Recently, DeepSeek-R1 (671B) (DeepSeek-AIet al., 2025) has demonstrated its excellent reasoning ability in complex tasks and has publiclyshared its methodology. This provides potentially high-quality chain-of-thought (CoT) data for stimulating the reasoning abilities of small-sized large language models (LLMs). To generate high-quality CoT data for different LLMs, we seek an efficient method for generating high-quality CoT data with LLM-Adaptive questiondifficulty levels. First, we grade the difficulty of the questions according to the reasoning ability of the LLMs themselves and construct a LLM-Adaptive question database. Second, we sample the problem database based on a distribution of difficulty levels of the questions and then use DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) to generate the corresponding high-quality CoT data with correct answers. Thanks to the construction of CoT data with LLM-Adaptive difficulty levels, we have significantly reduced the cost of data generation and enhanced the efficiency of model supervised fine-tuning (SFT). Finally, we have validated the effectiveness and generalizability of the proposed method in the fields of complex mathematical competitions and code generation tasks. Notably, with only 2k high-quality mathematical CoT data, our ZMath-32B surpasses DeepSeek-Distill-32B in math reasoning task. Similarly, with only 2k high-quality code CoT data, our ZCode-32B surpasses DeepSeek-Distill-32B in code reasoning tasks.

Summary

AI-Generated Summary

PDF123April 24, 2025