ChatPaper.aiChatPaper

MachineLearningLM: 数百万の合成表形式予測タスクに対する言語モデルの継続的事前学習は、インコンテキスト機械学習をスケーリングする

MachineLearningLM: Continued Pretraining Language Models on Millions of Synthetic Tabular Prediction Tasks Scales In-Context ML

September 8, 2025
著者: Haoyu Dong, Pengkun Zhang, Mingzhe Lu, Yanzhen Shen, Guolin Ke
cs.AI

要旨

大規模言語モデル(LLMs)は広範な世界知識と強力な汎用推論能力を有しているが、標準的な機械学習(ML)タスクにおいて、多くの文脈内の例から学習すること、すなわち、勾配降下法を用いずに純粋に文脈内学習(ICL)を通じて多数のデモンストレーションを活用することに苦戦している。本論文では、汎用LLMに強力な文脈内ML能力を備えつつ、より広範なチャットワークフローのための一般的な知識と推論能力を保持する、ポータブルな継続事前学習フレームワークであるMachineLearningLMを紹介する。 我々の事前学習手順は、最大1,024ショットに及ぶ数百万の構造的因果モデル(SCMs)からMLタスクを合成する。ランダムフォレストの教師モデルから始め、木ベースの意思決定戦略をLLMに蒸留することで、数値モデリングにおける堅牢性を強化する。すべてのタスクはトークン効率の良いプロンプトでシリアライズされ、コンテキストウィンドウごとに3倍から6倍の例を可能にし、バッチ推論を通じて最大50倍の償却スループットを実現する。 控えめなセットアップ(Qwen-2.5-7B-Instruct with LoRA rank 8)にもかかわらず、MachineLearningLMは、金融、物理学、生物学、医療分野にわたる分布外の表形式分類において、強力なLLMベースライン(例:GPT-5-mini)を平均約15%上回る。また、顕著な多数ショットスケーリング法則を示す:文脈内デモンストレーションが8から1,024に増加するにつれて、精度が単調に向上する。タスク固有のトレーニングなしで、数百ショットにわたってランダムフォレストレベルの精度を達成する。知識と推論を含む一般的なチャット能力も保持されており、MMLUで75.4%を達成する。
English
Large language models (LLMs) possess broad world knowledge and strong general-purpose reasoning ability, yet they struggle to learn from many in-context examples on standard machine learning (ML) tasks, that is, to leverage many-shot demonstrations purely via in-context learning (ICL) without gradient descent. We introduce MachineLearningLM, a portable continued-pretraining framework that equips a general-purpose LLM with robust in-context ML capability while preserving its general knowledge and reasoning for broader chat workflows. Our pretraining procedure synthesizes ML tasks from millions of structural causal models (SCMs), spanning shot counts up to 1,024. We begin with a random-forest teacher, distilling tree-based decision strategies into the LLM to strengthen robustness in numerical modeling. All tasks are serialized with a token-efficient prompt, enabling 3x to 6x more examples per context window and delivering up to 50x amortized throughput via batch inference. Despite a modest setup (Qwen-2.5-7B-Instruct with LoRA rank 8), MachineLearningLM outperforms strong LLM baselines (e.g., GPT-5-mini) by an average of about 15% on out-of-distribution tabular classification across finance, physics, biology, and healthcare domains. It exhibits a striking many-shot scaling law: accuracy increases monotonically as in-context demonstrations grow from 8 to 1,024. Without any task-specific training, it attains random-forest-level accuracy across hundreds of shots. General chat capabilities, including knowledge and reasoning, are preserved: it achieves 75.4% on MMLU.
PDF223September 12, 2025