LIMO : Moins c'est Plus pour le Raisonnement
LIMO: Less is More for Reasoning
February 5, 2025
Auteurs: Yixin Ye, Zhen Huang, Yang Xiao, Ethan Chern, Shijie Xia, Pengfei Liu
cs.AI
Résumé
Nous présentons une découverte fondamentale qui remet en question notre compréhension de l'émergence du raisonnement complexe dans les grands modèles de langage. Alors que la sagesse conventionnelle suggère que les tâches de raisonnement sophistiquées exigent des données d'entraînement étendues (>100 000 exemples), nous démontrons que les capacités de raisonnement mathématique complexe peuvent être efficacement sollicitées avec étonnamment peu d'exemples. À travers des expériences approfondies, notre modèle proposé LIMO démontre des performances sans précédent en matière de raisonnement mathématique. Avec seulement 817 échantillons d'entraînement sélectionnés, LIMO atteint une précision de 57,1 % sur AIME et de 94,8 % sur MATH, améliorant les performances des modèles précédents basés sur SFT qui étaient respectivement de 6,5 % et 59,2 %, tout en n'utilisant que 1 % des données d'entraînement requises par les approches précédentes. LIMO démontre une généralisation exceptionnelle hors distribution, réalisant une amélioration absolue de 40,5 % sur 10 benchmarks divers, surpassant les modèles entraînés sur 100 fois plus de données, remettant en question l'idée que SFT conduit à la mémorisation plutôt qu'à la généralisation. Sur la base de ces résultats, nous proposons l'Hypothèse du Raisonnement Moins C'est Plus (Hypothèse LIMO) : Dans les modèles de base où la connaissance du domaine a été encodée de manière exhaustive lors de la pré-formation, les capacités de raisonnement sophistiquées peuvent émerger à travers des démonstrations minimales mais précisément orchestrées des processus cognitifs. Cette hypothèse postule que le seuil de sollicitation pour le raisonnement complexe est déterminé par deux facteurs clés : (1) l'exhaustivité de la fondation de connaissances encodée du modèle lors de la pré-formation, et (2) l'efficacité des exemples post-formation en tant que "modèles cognitifs" montrant au modèle comment utiliser sa base de connaissances pour résoudre des tâches de raisonnement complexes. Pour faciliter la reproductibilité et les futures recherches en matière de raisonnement économe en données, nous publions LIMO en tant que suite complète open-source sur https://github.com/GAIR-NLP/LIMO.
English
We present a fundamental discovery that challenges our understanding of how
complex reasoning emerges in large language models. While conventional wisdom
suggests that sophisticated reasoning tasks demand extensive training data
(>100,000 examples), we demonstrate that complex mathematical reasoning
abilities can be effectively elicited with surprisingly few examples. Through
comprehensive experiments, our proposed model LIMO demonstrates unprecedented
performance in mathematical reasoning. With merely 817 curated training
samples, LIMO achieves 57.1% accuracy on AIME and 94.8% on MATH, improving from
previous SFT-based models' 6.5% and 59.2% respectively, while only using 1% of
the training data required by previous approaches. LIMO demonstrates
exceptional out-of-distribution generalization, achieving 40.5% absolute
improvement across 10 diverse benchmarks, outperforming models trained on 100x
more data, challenging the notion that SFT leads to memorization rather than
generalization. Based on these results, we propose the Less-Is-More Reasoning
Hypothesis (LIMO Hypothesis): In foundation models where domain knowledge has
been comprehensively encoded during pre-training, sophisticated reasoning
capabilities can emerge through minimal but precisely orchestrated
demonstrations of cognitive processes. This hypothesis posits that the
elicitation threshold for complex reasoning is determined by two key factors:
(1) the completeness of the model's encoded knowledge foundation during
pre-training, and (2) the effectiveness of post-training examples as "cognitive
templates" that show the model how to utilize its knowledge base to solve
complex reasoning tasks. To facilitate reproducibility and future research in
data-efficient reasoning, we release LIMO as a comprehensive open-source suite
at https://github.com/GAIR-NLP/LIMO.Summary
AI-Generated Summary