MachineLearningLM: Il continuo addestramento di modelli linguistici su milioni di attività sintetiche di previsione tabulare scala l'apprendimento automatico in-context
MachineLearningLM: Continued Pretraining Language Models on Millions of Synthetic Tabular Prediction Tasks Scales In-Context ML
September 8, 2025
Autori: Haoyu Dong, Pengkun Zhang, Mingzhe Lu, Yanzhen Shen, Guolin Ke
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) possiedono una vasta conoscenza del mondo e una forte capacità di ragionamento generico, ma faticano a imparare da molti esempi contestuali nelle attività standard di machine learning (ML), ovvero a sfruttare dimostrazioni many-shot esclusivamente tramite apprendimento in contesto (ICL) senza discesa del gradiente. Introduciamo MachineLearningLM, un framework portatile di pre-addestramento continuato che equipaggia un LLM generico con una robusta capacità di ML in contesto, preservando al contempo la sua conoscenza generale e il ragionamento per flussi di lavoro di chat più ampi.
La nostra procedura di pre-addestramento sintetizza attività di ML da milioni di modelli causali strutturali (SCM), coprendo conteggi di shot fino a 1.024. Partiamo da un insegnante basato su foreste casuali, distillando strategie decisionali basate su alberi nell'LLM per rafforzare la robustezza nella modellazione numerica. Tutte le attività sono serializzate con un prompt efficiente in termini di token, consentendo da 3x a 6x più esempi per finestra contestuale e offrendo fino a 50x di throughput ammortizzato tramite inferenza batch.
Nonostante una configurazione modesta (Qwen-2.5-7B-Instruct con rango LoRA 8), MachineLearningLM supera i forti baseline di LLM (ad esempio, GPT-5-mini) in media di circa il 15% nella classificazione tabulare fuori distribuzione in ambiti come finanza, fisica, biologia e sanità. Mostra una sorprendente legge di scala many-shot: l'accuratezza aumenta in modo monotono man mano che le dimostrazioni in contesto crescono da 8 a 1.024. Senza alcun addestramento specifico per il compito, raggiunge un'accuratezza a livello di foreste casuali su centinaia di shot. Le capacità generali di chat, inclusa conoscenza e ragionamento, sono preservate: ottiene il 75,4% su MMLU.
English
Large language models (LLMs) possess broad world knowledge and strong
general-purpose reasoning ability, yet they struggle to learn from many
in-context examples on standard machine learning (ML) tasks, that is, to
leverage many-shot demonstrations purely via in-context learning (ICL) without
gradient descent. We introduce MachineLearningLM, a portable
continued-pretraining framework that equips a general-purpose LLM with robust
in-context ML capability while preserving its general knowledge and reasoning
for broader chat workflows.
Our pretraining procedure synthesizes ML tasks from millions of structural
causal models (SCMs), spanning shot counts up to 1,024. We begin with a
random-forest teacher, distilling tree-based decision strategies into the LLM
to strengthen robustness in numerical modeling. All tasks are serialized with a
token-efficient prompt, enabling 3x to 6x more examples per context window and
delivering up to 50x amortized throughput via batch inference.
Despite a modest setup (Qwen-2.5-7B-Instruct with LoRA rank 8),
MachineLearningLM outperforms strong LLM baselines (e.g., GPT-5-mini) by an
average of about 15% on out-of-distribution tabular classification across
finance, physics, biology, and healthcare domains. It exhibits a striking
many-shot scaling law: accuracy increases monotonically as in-context
demonstrations grow from 8 to 1,024. Without any task-specific training, it
attains random-forest-level accuracy across hundreds of shots. General chat
capabilities, including knowledge and reasoning, are preserved: it achieves
75.4% on MMLU.