DataChef : Préparation de Recettes de Données Optimales pour l'Adaptation des LLM via Apprentissage par Renforcement
DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning
February 11, 2026
papers.authors: Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen
cs.AI
papers.abstract
Dans le paysage actuel des modèles de langage de grande taille (LLM), la curation de données d'entraînement à grande échelle et de haute qualité est un facteur clé de performance des modèles. Un levier essentiel est la recette de données, qui comprend un pipeline de traitement pour transformer des sources brutes en corpus d'entraînement. Malgré l'utilisation croissante des LLMs pour automatiser des étapes individuelles de traitement des données, telles que la synthèse et le filtrage, la conception globale des recettes de données reste largement manuelle et laborieuse, nécessitant une expertise humaine substantielle et des itérations. Pour combler cette lacune, nous formalisons la génération de recettes de données de bout en bout pour l'adaptation des LLMs. Étant donné un benchmark cible et un pool de sources de données disponibles, un modèle doit produire une recette de données complète qui adapte un LLM de base à la tâche cible. Nous présentons DataChef-32B, qui réalise un apprentissage par renforcement en ligne en utilisant une récompense proxy prédisant la performance en aval des recettes candidates. Sur six tâches de test, DataChef-32B produit des recettes pratiques atteignant des performances comparables à celles élaborées par des experts humains. Notamment, la recette de DataChef-32B adapte Qwen3-1.7B-Base au domaine mathématique, atteignant 66,7 sur AIME'25 et surpassant Qwen3-1.7B. Ce travail ouvre de nouvelles perspectives sur l'automatisation de l'entraînement des LLMs et le développement de systèmes d'IA auto-évolutifs.
English
In the current landscape of Large Language Models (LLMs), the curation of large-scale, high-quality training data is a primary driver of model performance. A key lever is the data recipe, which comprises a data processing pipeline to transform raw sources into training corpora. Despite the growing use of LLMs to automate individual data processing steps, such as data synthesis and filtering, the overall design of data recipes remains largely manual and labor-intensive, requiring substantial human expertise and iteration. To bridge this gap, we formulate end-to-end data recipe generation for LLM adaptation. Given a target benchmark and a pool of available data sources, a model is required to output a complete data recipe that adapts a base LLM to the target task. We present DataChef-32B, which performs online reinforcement learning using a proxy reward that predicts downstream performance for candidate recipes. Across six held-out tasks, DataChef-32B produces practical recipes that reach comparable downstream performance to those curated by human experts. Notably, the recipe from DataChef-32B adapts Qwen3-1.7B-Base to the math domain, achieving 66.7 on AIME'25 and surpassing Qwen3-1.7B. This work sheds new light on automating LLM training and developing self-evolving AI systems.