ChatPaper.aiChatPaper

DataChef: 강화 학습을 통한 LLM 적응을 위한 최적 데이터 레시피 구성

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

February 11, 2026
저자: Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen
cs.AI

초록

현재 대규모 언어 모델(LLM) 분야에서는 대규모 고품질 학습 데이터의 선별이 모델 성능의 주요 동인으로 작용하고 있습니다. 여기서 핵심 요소는 원시 데이터 소스를 학습 코퍼스로 변환하는 데이터 처리 파이프라인으로 구성된 데이터 레시피입니다. 데이터 합성 및 필터링과 같은 개별 데이터 처리 단계를 자동화하기 위해 LLM의 활용이 증가하고 있음에도 불구하고, 데이터 레시피의 전반적인 설계는 여전히 대부분 수동적이며 노동 집약적입니다. 이는 상당한 수준의 인간 전문 지식과 반복 작업을 필요로 합니다. 이러한 격차를 해소하기 위해 우리는 LLM 적응을 위한 종단간 데이터 레시피 생성 방법을 정형화합니다. 목표 벤치마크와 사용 가능한 데이터 소스 풀이 주어졌을 때, 모델은 기본 LLM을 목표 작업에 적응시키는 완전한 데이터 레시피를 출력해야 합니다. 우리는 후보 레시피의 하류 작업 성능을 예측하는 프록시 보상을 사용하여 온라인 강화 학습을 수행하는 DataChef-32B를 제시합니다. 6개의 별도 보유 작업에 걸쳐 DataChef-32B는 인간 전문가가 선별한 레시피와 비슷한 수준의 하류 작업 성능에 도달하는 실용적인 레시피를 생성합니다. 특히 DataChef-32B의 레시피는 Qwen3-1.7B-Base 모델을 수학 영역에 적응시켜 AIME'25에서 66.7점을 달성하며 Qwen3-1.7B를 능가했습니다. 이 작업은 LLM 훈련의 자동화와 자기 진화 AI 시스템 개발에 새로운 통찰을 제공합니다.
English
In the current landscape of Large Language Models (LLMs), the curation of large-scale, high-quality training data is a primary driver of model performance. A key lever is the data recipe, which comprises a data processing pipeline to transform raw sources into training corpora. Despite the growing use of LLMs to automate individual data processing steps, such as data synthesis and filtering, the overall design of data recipes remains largely manual and labor-intensive, requiring substantial human expertise and iteration. To bridge this gap, we formulate end-to-end data recipe generation for LLM adaptation. Given a target benchmark and a pool of available data sources, a model is required to output a complete data recipe that adapts a base LLM to the target task. We present DataChef-32B, which performs online reinforcement learning using a proxy reward that predicts downstream performance for candidate recipes. Across six held-out tasks, DataChef-32B produces practical recipes that reach comparable downstream performance to those curated by human experts. Notably, the recipe from DataChef-32B adapts Qwen3-1.7B-Base to the math domain, achieving 66.7 on AIME'25 and surpassing Qwen3-1.7B. This work sheds new light on automating LLM training and developing self-evolving AI systems.
PDF131February 13, 2026