ChatPaper.aiChatPaper

MachineLearningLM : Poursuite du pré-entraînement de modèles de langage sur des millions de tâches synthétiques de prédiction tabulaire pour une mise à l'échelle de l'apprentissage automatique en contexte.

MachineLearningLM: Continued Pretraining Language Models on Millions of Synthetic Tabular Prediction Tasks Scales In-Context ML

September 8, 2025
papers.authors: Haoyu Dong, Pengkun Zhang, Mingzhe Lu, Yanzhen Shen, Guolin Ke
cs.AI

papers.abstract

Les grands modèles de langage (LLMs) possèdent une vaste connaissance du monde et une forte capacité de raisonnement général, mais ils peinent à apprendre à partir de nombreux exemples contextuels dans les tâches standard d'apprentissage automatique (ML), c'est-à-dire à exploiter des démonstrations en contexte pur via l'apprentissage en contexte (ICL) sans descente de gradient. Nous présentons MachineLearningLM, un cadre portable de pré-entraînement continu qui dote un LLM généraliste d'une robuste capacité d'apprentissage automatique en contexte tout en préservant ses connaissances générales et son raisonnement pour des workflows de conversation plus larges. Notre procédure de pré-entraînement synthétise des tâches ML à partir de millions de modèles causaux structurels (SCMs), couvrant des comptages de shots allant jusqu'à 1 024. Nous commençons avec un enseignant de type forêt aléatoire, distillant les stratégies de décision basées sur les arbres dans le LLM pour renforcer la robustesse dans la modélisation numérique. Toutes les tâches sont sérialisées avec une invite efficace en tokens, permettant de 3 à 6 fois plus d'exemples par fenêtre contextuelle et offrant jusqu'à 50 fois le débit amorti via l'inférence par lots. Malgré une configuration modeste (Qwen-2.5-7B-Instruct avec un rang LoRA de 8), MachineLearningLM surpasse les LLM de référence (par exemple, GPT-5-mini) en moyenne d'environ 15 % sur la classification tabulaire hors distribution dans les domaines de la finance, de la physique, de la biologie et de la santé. Il présente une loi d'échelle frappante pour les nombreux shots : la précision augmente de manière monotone à mesure que les démonstrations en contexte passent de 8 à 1 024. Sans aucun entraînement spécifique à la tâche, il atteint une précision au niveau de la forêt aléatoire sur des centaines de shots. Les capacités générales de conversation, y compris les connaissances et le raisonnement, sont préservées : il atteint 75,4 % sur MMLU.
English
Large language models (LLMs) possess broad world knowledge and strong general-purpose reasoning ability, yet they struggle to learn from many in-context examples on standard machine learning (ML) tasks, that is, to leverage many-shot demonstrations purely via in-context learning (ICL) without gradient descent. We introduce MachineLearningLM, a portable continued-pretraining framework that equips a general-purpose LLM with robust in-context ML capability while preserving its general knowledge and reasoning for broader chat workflows. Our pretraining procedure synthesizes ML tasks from millions of structural causal models (SCMs), spanning shot counts up to 1,024. We begin with a random-forest teacher, distilling tree-based decision strategies into the LLM to strengthen robustness in numerical modeling. All tasks are serialized with a token-efficient prompt, enabling 3x to 6x more examples per context window and delivering up to 50x amortized throughput via batch inference. Despite a modest setup (Qwen-2.5-7B-Instruct with LoRA rank 8), MachineLearningLM outperforms strong LLM baselines (e.g., GPT-5-mini) by an average of about 15% on out-of-distribution tabular classification across finance, physics, biology, and healthcare domains. It exhibits a striking many-shot scaling law: accuracy increases monotonically as in-context demonstrations grow from 8 to 1,024. Without any task-specific training, it attains random-forest-level accuracy across hundreds of shots. General chat capabilities, including knowledge and reasoning, are preserved: it achieves 75.4% on MMLU.
PDF223September 12, 2025