ChatPaper.aiChatPaper

LIMO: Meno è Meglio per il Ragionamento

LIMO: Less is More for Reasoning

February 5, 2025
Autori: Yixin Ye, Zhen Huang, Yang Xiao, Ethan Chern, Shijie Xia, Pengfei Liu
cs.AI

Abstract

Presentiamo una scoperta fondamentale che mette in discussione la nostra comprensione di come l'elaborazione del ragionamento complesso emerga nei grandi modelli linguistici. Mentre il pensiero convenzionale suggerisce che compiti di ragionamento sofisticato richiedano un'ampia quantità di dati di addestramento (>100.000 esempi), dimostriamo che le abilità di ragionamento matematico complesso possono essere efficacemente evocate con sorprendentemente pochi esempi. Attraverso esperimenti esaustivi, il nostro modello proposto LIMO dimostra prestazioni senza precedenti nel ragionamento matematico. Con solamente 817 campioni di addestramento selezionati, LIMO raggiunge un'accuratezza del 57,1% su AIME e del 94,8% su MATH, migliorando rispetto ai modelli basati su SFT precedenti che avevano rispettivamente il 6,5% e il 59,2%, utilizzando solo l'1% dei dati di addestramento richiesti dai metodi precedenti. LIMO dimostra un'eccezionale generalizzazione fuori distribuzione, ottenendo un miglioramento assoluto del 40,5% su 10 diversi benchmark, superando i modelli addestrati su 100 volte più dati, mettendo in discussione l'idea che SFT porti alla memorizzazione piuttosto che alla generalizzazione. Sulla base di questi risultati, proponiamo l'Ipotesi del Ragionamento Meno-È-Più (Ipotesi LIMO): Nei modelli fondamentali in cui la conoscenza di dominio è stata codificata in modo esaustivo durante il pre-addestramento, le capacità di ragionamento sofisticato possono emergere attraverso dimostrazioni minime ma precisamente orchestrare dei processi cognitivi. Questa ipotesi sostiene che la soglia di evocazione per il ragionamento complesso sia determinata da due fattori chiave: (1) la completezza della base di conoscenza codificata del modello durante il pre-addestramento e (2) l'efficacia degli esempi post-addestramento come "modelli cognitivi" che mostrano al modello come utilizzare la sua base di conoscenza per risolvere compiti di ragionamento complessi. Per facilitare la riproducibilità e la ricerca futura nel ragionamento efficiente dei dati, rilasciamo LIMO come un pacchetto open-source completo su https://github.com/GAIR-NLP/LIMO.
English
We present a fundamental discovery that challenges our understanding of how complex reasoning emerges in large language models. While conventional wisdom suggests that sophisticated reasoning tasks demand extensive training data (>100,000 examples), we demonstrate that complex mathematical reasoning abilities can be effectively elicited with surprisingly few examples. Through comprehensive experiments, our proposed model LIMO demonstrates unprecedented performance in mathematical reasoning. With merely 817 curated training samples, LIMO achieves 57.1% accuracy on AIME and 94.8% on MATH, improving from previous SFT-based models' 6.5% and 59.2% respectively, while only using 1% of the training data required by previous approaches. LIMO demonstrates exceptional out-of-distribution generalization, achieving 40.5% absolute improvement across 10 diverse benchmarks, outperforming models trained on 100x more data, challenging the notion that SFT leads to memorization rather than generalization. Based on these results, we propose the Less-Is-More Reasoning Hypothesis (LIMO Hypothesis): In foundation models where domain knowledge has been comprehensively encoded during pre-training, sophisticated reasoning capabilities can emerge through minimal but precisely orchestrated demonstrations of cognitive processes. This hypothesis posits that the elicitation threshold for complex reasoning is determined by two key factors: (1) the completeness of the model's encoded knowledge foundation during pre-training, and (2) the effectiveness of post-training examples as "cognitive templates" that show the model how to utilize its knowledge base to solve complex reasoning tasks. To facilitate reproducibility and future research in data-efficient reasoning, we release LIMO as a comprehensive open-source suite at https://github.com/GAIR-NLP/LIMO.

Summary

AI-Generated Summary

PDF614February 6, 2025