LIMO: Menos é Mais para Raciocínio

Resumo

Apresentamos uma descoberta fundamental que desafia nossa compreensão de como o raciocínio complexo emerge em grandes modelos de linguagem. Enquanto a sabedoria convencional sugere que tarefas de raciocínio sofisticado exigem extensos dados de treinamento (>100.000 exemplos), demonstramos que habilidades complexas de raciocínio matemático podem ser efetivamente obtidas com surpreendentemente poucos exemplos. Através de experimentos abrangentes, nosso modelo proposto LIMO demonstra um desempenho sem precedentes em raciocínio matemático. Com meramente 817 amostras de treinamento selecionadas, LIMO alcança uma precisão de 57,1% no AIME e 94,8% no MATH, melhorando em relação aos modelos anteriores baseados em SFT, que obtiveram 6,5% e 59,2%, respectivamente, utilizando apenas 1% dos dados de treinamento exigidos por abordagens anteriores. LIMO demonstra uma generalização excepcional fora da distribuição, alcançando um aumento absoluto de 40,5% em 10 benchmarks diversos, superando modelos treinados com 100 vezes mais dados, desafiando a noção de que SFT leva à memorização em vez de generalização. Com base nesses resultados, propomos a Hipótese de Raciocínio Menos-É-Mais (Hipótese LIMO): em modelos fundamentais nos quais o conhecimento de domínio foi abrangentemente codificado durante o pré-treinamento, capacidades de raciocínio sofisticado podem surgir através de demonstrações mínimas, mas precisamente orquestradas, de processos cognitivos. Esta hipótese postula que o limiar de elicitação para o raciocínio complexo é determinado por dois fatores-chave: (1) a completude da base de conhecimento codificada do modelo durante o pré-treinamento e (2) a eficácia de exemplos de pós-treinamento como "modelos cognitivos" que mostram ao modelo como utilizar sua base de conhecimento para resolver tarefas de raciocínio complexas. Para facilitar a reprodutibilidade e futuras pesquisas em raciocínio eficiente em dados, disponibilizamos o LIMO como um conjunto abrangente de código aberto em https://github.com/GAIR-NLP/LIMO.

English

We present a fundamental discovery that challenges our understanding of how complex reasoning emerges in large language models. While conventional wisdom suggests that sophisticated reasoning tasks demand extensive training data (>100,000 examples), we demonstrate that complex mathematical reasoning abilities can be effectively elicited with surprisingly few examples. Through comprehensive experiments, our proposed model LIMO demonstrates unprecedented performance in mathematical reasoning. With merely 817 curated training samples, LIMO achieves 57.1% accuracy on AIME and 94.8% on MATH, improving from previous SFT-based models' 6.5% and 59.2% respectively, while only using 1% of the training data required by previous approaches. LIMO demonstrates exceptional out-of-distribution generalization, achieving 40.5% absolute improvement across 10 diverse benchmarks, outperforming models trained on 100x more data, challenging the notion that SFT leads to memorization rather than generalization. Based on these results, we propose the Less-Is-More Reasoning Hypothesis (LIMO Hypothesis): In foundation models where domain knowledge has been comprehensively encoded during pre-training, sophisticated reasoning capabilities can emerge through minimal but precisely orchestrated demonstrations of cognitive processes. This hypothesis posits that the elicitation threshold for complex reasoning is determined by two key factors: (1) the completeness of the model's encoded knowledge foundation during pre-training, and (2) the effectiveness of post-training examples as "cognitive templates" that show the model how to utilize its knowledge base to solve complex reasoning tasks. To facilitate reproducibility and future research in data-efficient reasoning, we release LIMO as a comprehensive open-source suite at https://github.com/GAIR-NLP/LIMO.

LIMO: Menos é Mais para Raciocínio

LIMO: Less is More for Reasoning

Resumo

Support