DataChef: Preparando Receitas de Dados Ideais para Adaptação de LLMs via Aprendizado por Reforço

Resumo

No cenário atual dos Modelos de Linguagem de Grande Porte (LLMs), a curadoria de dados de treinamento em larga escala e de alta qualidade é um dos principais impulsionadores do desempenho do modelo. Um elemento-chave é a "receita de dados", que compreende um *pipeline* de processamento para transformar fontes brutas em corpora de treinamento. Apesar do uso crescente de LLMs para automatizar etapas individuais de processamento de dados, como síntese e filtragem de dados, o projeto geral das receitas de dados permanece amplamente manual e intensivo em mão de obra, exigindo substancial expertise humana e iteração. Para preencher essa lacuna, formulamos a geração de receitas de dados de ponta a ponta para adaptação de LLMs. Dado um *benchmark* alvo e um conjunto de fontes de dados disponíveis, um modelo é necessário para produzir uma receita de dados completa que adapte um LLM base à tarefa alvo. Apresentamos o DataChef-32B, que realiza aprendizado por reforço online usando uma recompensa *proxy* que prevê o desempenho *downstream* para receitas candidatas. Em seis tarefas retidas para teste, o DataChef-32B produz receitas práticas que atingem desempenho *downstream* comparável àquelas curadas por especialistas humanos. Notavelmente, a receita do DataChef-32B adapta o Qwen3-1.7B-Base para o domínio matemático, alcançando 66,7 na AIME'25 e superando o Qwen3-1.7B. Este trabalho lança nova luz sobre a automação do treinamento de LLMs e o desenvolvimento de sistemas de IA com auto-evolução.

English

In the current landscape of Large Language Models (LLMs), the curation of large-scale, high-quality training data is a primary driver of model performance. A key lever is the data recipe, which comprises a data processing pipeline to transform raw sources into training corpora. Despite the growing use of LLMs to automate individual data processing steps, such as data synthesis and filtering, the overall design of data recipes remains largely manual and labor-intensive, requiring substantial human expertise and iteration. To bridge this gap, we formulate end-to-end data recipe generation for LLM adaptation. Given a target benchmark and a pool of available data sources, a model is required to output a complete data recipe that adapts a base LLM to the target task. We present DataChef-32B, which performs online reinforcement learning using a proxy reward that predicts downstream performance for candidate recipes. Across six held-out tasks, DataChef-32B produces practical recipes that reach comparable downstream performance to those curated by human experts. Notably, the recipe from DataChef-32B adapts Qwen3-1.7B-Base to the math domain, achieving 66.7 on AIME'25 and surpassing Qwen3-1.7B. This work sheds new light on automating LLM training and developing self-evolving AI systems.

DataChef: Preparando Receitas de Dados Ideais para Adaptação de LLMs via Aprendizado por Reforço

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Resumo

Support