ChatPaper.aiChatPaper

ЛИМО: Меньше - значит больше для рассуждений

LIMO: Less is More for Reasoning

February 5, 2025
Авторы: Yixin Ye, Zhen Huang, Yang Xiao, Ethan Chern, Shijie Xia, Pengfei Liu
cs.AI

Аннотация

Мы представляем фундаментальное открытие, которое вызывает сомнения в нашем понимании того, как сложное рассуждение возникает в больших языковых моделях. В то время как общепринятое мнение подразумевает, что для выполнения сложных задач рассуждения требуется обширный объем обучающих данных (>100 000 примеров), мы демонстрируем, что сложные математические способности рассуждения могут быть эффективно вызваны с удивительно небольшим количеством примеров. Через комплексные эксперименты наша предложенная модель LIMO демонстрирует беспрецедентную производительность в математическом рассуждении. Используя всего лишь 817 отобранных обучающих примеров, LIMO достигает точности 57,1% на AIME и 94,8% на MATH, улучшая результаты предыдущих моделей на основе SFT, которые составляли 6,5% и 59,2% соответственно, при этом используя всего 1% обучающих данных, необходимых для предыдущих подходов. LIMO демонстрирует исключительную обобщаемость за пределами распределения, достигая абсолютного улучшения на 40,5% по 10 разнообразным бенчмаркам, превосходя модели, обученные на 100 раз большем объеме данных, оспаривая представление о том, что SFT приводит к запоминанию, а не обобщению. На основе этих результатов мы предлагаем гипотезу о рассуждении "Меньше - Значит, Больше" (LIMO Hypothesis): в моделях основы, где предметные знания были всесторонне закодированы во время предварительного обучения, сложные способности рассуждения могут возникнуть через минимальные, но точно организованные демонстрации когнитивных процессов. Эта гипотеза утверждает, что порог вызова для сложного рассуждения определяется двумя ключевыми факторами: (1) полнотой закодированных знаний модели во время предварительного обучения и (2) эффективностью послеобучающих примеров в качестве "когнитивных шаблонов", показывающих модели, как использовать свою базу знаний для решения сложных задач рассуждения. Для обеспечения воспроизводимости и будущих исследований в области эффективного использования данных в рассуждении мы выпускаем LIMO в качестве всестороннего набора с открытым исходным кодом по адресу https://github.com/GAIR-NLP/LIMO.
English
We present a fundamental discovery that challenges our understanding of how complex reasoning emerges in large language models. While conventional wisdom suggests that sophisticated reasoning tasks demand extensive training data (>100,000 examples), we demonstrate that complex mathematical reasoning abilities can be effectively elicited with surprisingly few examples. Through comprehensive experiments, our proposed model LIMO demonstrates unprecedented performance in mathematical reasoning. With merely 817 curated training samples, LIMO achieves 57.1% accuracy on AIME and 94.8% on MATH, improving from previous SFT-based models' 6.5% and 59.2% respectively, while only using 1% of the training data required by previous approaches. LIMO demonstrates exceptional out-of-distribution generalization, achieving 40.5% absolute improvement across 10 diverse benchmarks, outperforming models trained on 100x more data, challenging the notion that SFT leads to memorization rather than generalization. Based on these results, we propose the Less-Is-More Reasoning Hypothesis (LIMO Hypothesis): In foundation models where domain knowledge has been comprehensively encoded during pre-training, sophisticated reasoning capabilities can emerge through minimal but precisely orchestrated demonstrations of cognitive processes. This hypothesis posits that the elicitation threshold for complex reasoning is determined by two key factors: (1) the completeness of the model's encoded knowledge foundation during pre-training, and (2) the effectiveness of post-training examples as "cognitive templates" that show the model how to utilize its knowledge base to solve complex reasoning tasks. To facilitate reproducibility and future research in data-efficient reasoning, we release LIMO as a comprehensive open-source suite at https://github.com/GAIR-NLP/LIMO.

Summary

AI-Generated Summary

PDF614February 6, 2025