ChatPaper.aiChatPaper

DataChef:強化学習によるLLM適応のための最適データレシピ作成

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

February 11, 2026
著者: Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen
cs.AI

要旨

大規模言語モデル(LLM)の現状において、大規模で高品質な学習データの構築は、モデル性能を左右する主要な要因である。重要な要素の一つがデータレシピであり、これは生データを学習コーパスに変換するデータ処理パイプラインで構成される。データ合成やフィルタリングといった個々のデータ処理ステップの自動化にLLMが活用される機会が増えているものの、データレシピの全体的な設計は依然として人手に依存し、専門家の知見と繰り返しの作業を要する労力集約的なプロセスである。この課題を解決するため、我々はLLM適応のためのエンドツーエンドのデータレシピ生成を定式化する。具体的には、対象ベンチマークと利用可能なデータソース群が与えられたとき、モデルがベースLLMを対象タスクに適応させる完全なデータレシピを出力することを目指す。本論文ではDataChef-32Bを提案する。これは、候補となるレシピの下流タスク性能を予測する代理報酬を用いて、オンライン強化学習を行う。6つの検証タスクにおいて、DataChef-32Bが生成する実用的なレシピは、人間の専門家が作成したレシピと同等の下流タスク性能を達成した。特に、DataChef-32Bが生成したレシピにより、Qwen3-1.7B-Baseを数学領域に適応させた結果、AIME'25で66.7を達成し、Qwen3-1.7Bを上回った。本研究は、LLM学習の自動化と自己進化型AIシステムの開発に新たな知見をもたらすものである。
English
In the current landscape of Large Language Models (LLMs), the curation of large-scale, high-quality training data is a primary driver of model performance. A key lever is the data recipe, which comprises a data processing pipeline to transform raw sources into training corpora. Despite the growing use of LLMs to automate individual data processing steps, such as data synthesis and filtering, the overall design of data recipes remains largely manual and labor-intensive, requiring substantial human expertise and iteration. To bridge this gap, we formulate end-to-end data recipe generation for LLM adaptation. Given a target benchmark and a pool of available data sources, a model is required to output a complete data recipe that adapts a base LLM to the target task. We present DataChef-32B, which performs online reinforcement learning using a proxy reward that predicts downstream performance for candidate recipes. Across six held-out tasks, DataChef-32B produces practical recipes that reach comparable downstream performance to those curated by human experts. Notably, the recipe from DataChef-32B adapts Qwen3-1.7B-Base to the math domain, achieving 66.7 on AIME'25 and surpassing Qwen3-1.7B. This work sheds new light on automating LLM training and developing self-evolving AI systems.
PDF131February 13, 2026