MachineLearningLM: 수백만 개의 합성 테이블 예측 작업에 대한 언어 모델의 지속적 사전 학습이 컨텍스트 내 머신러닝을 확장한다
MachineLearningLM: Continued Pretraining Language Models on Millions of Synthetic Tabular Prediction Tasks Scales In-Context ML
September 8, 2025
저자: Haoyu Dong, Pengkun Zhang, Mingzhe Lu, Yanzhen Shen, Guolin Ke
cs.AI
초록
대규모 언어 모델(LLMs)은 광범위한 세계 지식과 강력한 범용 추론 능력을 갖추고 있지만, 표준 기계 학습(ML) 작업에서 많은 문맥 내 예제를 학습하는 데 어려움을 겪습니다. 즉, 그래디언트 디센트 없이 순수하게 문맥 내 학습(ICL)을 통해 다수 샷 데모를 활용하는 데 한계가 있습니다. 우리는 MachineLearningLM을 소개합니다. 이는 범용 LLM에 강력한 문맥 내 ML 능력을 부여하면서도 더 넓은 채팅 워크플로우를 위한 일반 지식과 추론 능력을 보존하는 휴대 가능한 지속 사전 학습 프레임워크입니다.
우리의 사전 학습 절차는 수백만 개의 구조적 인과 모델(SCMs)에서 ML 작업을 합성하며, 샷 수를 최대 1,024까지 확장합니다. 랜덤 포레스트 교사 모델로 시작하여, 트리 기반 의사 결정 전략을 LLM에 증류하여 수치 모델링에서의 견고성을 강화합니다. 모든 작업은 토큰 효율적인 프롬프트로 직렬화되어, 컨텍스트 창당 3배에서 6배 더 많은 예제를 가능하게 하고 배치 추론을 통해 최대 50배의 상각 처리량을 제공합니다.
비록 간단한 설정(Qwen-2.5-7B-Instruct with LoRA rank 8)이지만, MachineLearningLM은 금융, 물리학, 생물학, 헬스케어 도메인에 걸친 분포 외 표 분류에서 강력한 LLM 베이스라인(예: GPT-5-mini)을 평균 약 15% 앞섭니다. 이는 눈에 띄는 다수 샷 스케일링 법칙을 보여줍니다: 문맥 내 데모가 8에서 1,024로 증가함에 따라 정확도가 단조롭게 증가합니다. 작업별 훈련 없이도 수백 샷에 걸쳐 랜덤 포레스트 수준의 정확도를 달성합니다. 일반 채팅 능력, 즉 지식과 추론 능력도 보존됩니다: MMLU에서 75.4%를 달성합니다.
English
Large language models (LLMs) possess broad world knowledge and strong
general-purpose reasoning ability, yet they struggle to learn from many
in-context examples on standard machine learning (ML) tasks, that is, to
leverage many-shot demonstrations purely via in-context learning (ICL) without
gradient descent. We introduce MachineLearningLM, a portable
continued-pretraining framework that equips a general-purpose LLM with robust
in-context ML capability while preserving its general knowledge and reasoning
for broader chat workflows.
Our pretraining procedure synthesizes ML tasks from millions of structural
causal models (SCMs), spanning shot counts up to 1,024. We begin with a
random-forest teacher, distilling tree-based decision strategies into the LLM
to strengthen robustness in numerical modeling. All tasks are serialized with a
token-efficient prompt, enabling 3x to 6x more examples per context window and
delivering up to 50x amortized throughput via batch inference.
Despite a modest setup (Qwen-2.5-7B-Instruct with LoRA rank 8),
MachineLearningLM outperforms strong LLM baselines (e.g., GPT-5-mini) by an
average of about 15% on out-of-distribution tabular classification across
finance, physics, biology, and healthcare domains. It exhibits a striking
many-shot scaling law: accuracy increases monotonically as in-context
demonstrations grow from 8 to 1,024. Without any task-specific training, it
attains random-forest-level accuracy across hundreds of shots. General chat
capabilities, including knowledge and reasoning, are preserved: it achieves
75.4% on MMLU.