LIMO: Menos é Mais para Raciocínio
LIMO: Less is More for Reasoning
February 5, 2025
Autores: Yixin Ye, Zhen Huang, Yang Xiao, Ethan Chern, Shijie Xia, Pengfei Liu
cs.AI
Resumo
Apresentamos uma descoberta fundamental que desafia nossa compreensão de como o raciocínio complexo emerge em grandes modelos de linguagem. Enquanto a sabedoria convencional sugere que tarefas de raciocínio sofisticado exigem extensos dados de treinamento (>100.000 exemplos), demonstramos que habilidades complexas de raciocínio matemático podem ser efetivamente obtidas com surpreendentemente poucos exemplos. Através de experimentos abrangentes, nosso modelo proposto LIMO demonstra um desempenho sem precedentes em raciocínio matemático. Com meramente 817 amostras de treinamento selecionadas, LIMO alcança uma precisão de 57,1% no AIME e 94,8% no MATH, melhorando em relação aos modelos anteriores baseados em SFT, que obtiveram 6,5% e 59,2%, respectivamente, utilizando apenas 1% dos dados de treinamento exigidos por abordagens anteriores. LIMO demonstra uma generalização excepcional fora da distribuição, alcançando um aumento absoluto de 40,5% em 10 benchmarks diversos, superando modelos treinados com 100 vezes mais dados, desafiando a noção de que SFT leva à memorização em vez de generalização. Com base nesses resultados, propomos a Hipótese de Raciocínio Menos-É-Mais (Hipótese LIMO): em modelos fundamentais nos quais o conhecimento de domínio foi abrangentemente codificado durante o pré-treinamento, capacidades de raciocínio sofisticado podem surgir através de demonstrações mínimas, mas precisamente orquestradas, de processos cognitivos. Esta hipótese postula que o limiar de elicitação para o raciocínio complexo é determinado por dois fatores-chave: (1) a completude da base de conhecimento codificada do modelo durante o pré-treinamento e (2) a eficácia de exemplos de pós-treinamento como "modelos cognitivos" que mostram ao modelo como utilizar sua base de conhecimento para resolver tarefas de raciocínio complexas. Para facilitar a reprodutibilidade e futuras pesquisas em raciocínio eficiente em dados, disponibilizamos o LIMO como um conjunto abrangente de código aberto em https://github.com/GAIR-NLP/LIMO.
English
We present a fundamental discovery that challenges our understanding of how
complex reasoning emerges in large language models. While conventional wisdom
suggests that sophisticated reasoning tasks demand extensive training data
(>100,000 examples), we demonstrate that complex mathematical reasoning
abilities can be effectively elicited with surprisingly few examples. Through
comprehensive experiments, our proposed model LIMO demonstrates unprecedented
performance in mathematical reasoning. With merely 817 curated training
samples, LIMO achieves 57.1% accuracy on AIME and 94.8% on MATH, improving from
previous SFT-based models' 6.5% and 59.2% respectively, while only using 1% of
the training data required by previous approaches. LIMO demonstrates
exceptional out-of-distribution generalization, achieving 40.5% absolute
improvement across 10 diverse benchmarks, outperforming models trained on 100x
more data, challenging the notion that SFT leads to memorization rather than
generalization. Based on these results, we propose the Less-Is-More Reasoning
Hypothesis (LIMO Hypothesis): In foundation models where domain knowledge has
been comprehensively encoded during pre-training, sophisticated reasoning
capabilities can emerge through minimal but precisely orchestrated
demonstrations of cognitive processes. This hypothesis posits that the
elicitation threshold for complex reasoning is determined by two key factors:
(1) the completeness of the model's encoded knowledge foundation during
pre-training, and (2) the effectiveness of post-training examples as "cognitive
templates" that show the model how to utilize its knowledge base to solve
complex reasoning tasks. To facilitate reproducibility and future research in
data-efficient reasoning, we release LIMO as a comprehensive open-source suite
at https://github.com/GAIR-NLP/LIMO.Summary
AI-Generated Summary