LIMO: Menos es Más para el Razonamiento
LIMO: Less is More for Reasoning
February 5, 2025
Autores: Yixin Ye, Zhen Huang, Yang Xiao, Ethan Chern, Shijie Xia, Pengfei Liu
cs.AI
Resumen
Presentamos un descubrimiento fundamental que desafía nuestra comprensión de cómo surge el razonamiento complejo en grandes modelos de lenguaje. Mientras la sabiduría convencional sugiere que las tareas de razonamiento sofisticado requieren extensos datos de entrenamiento (>100,000 ejemplos), demostramos que las habilidades de razonamiento matemático complejo pueden ser eficazmente provocadas con sorprendentemente pocos ejemplos. A través de experimentos exhaustivos, nuestro modelo propuesto LIMO demuestra un rendimiento sin precedentes en el razonamiento matemático. Con tan solo 817 ejemplos de entrenamiento seleccionados, LIMO logra una precisión del 57.1% en AIME y del 94.8% en MATH, mejorando respecto a los modelos anteriores basados en SFT que tenían un 6.5% y un 59.2% respectivamente, utilizando solo el 1% de los datos de entrenamiento requeridos por enfoques anteriores. LIMO muestra una generalización excepcional fuera de la distribución, logrando una mejora absoluta del 40.5% en 10 benchmarks diversos, superando a modelos entrenados con 100 veces más datos, desafiando la noción de que SFT conduce a la memorización en lugar de la generalización. Basándonos en estos resultados, proponemos la Hipótesis de Razonamiento Menos es Más (Hipótesis LIMO): En modelos fundamentales donde el conocimiento del dominio ha sido codificado de manera exhaustiva durante el pre-entrenamiento, las capacidades de razonamiento sofisticado pueden surgir a través de demostraciones mínimas pero precisamente orquestadas de procesos cognitivos. Esta hipótesis postula que el umbral de provocación para el razonamiento complejo está determinado por dos factores clave: (1) la completitud de la base de conocimiento codificada del modelo durante el pre-entrenamiento, y (2) la efectividad de los ejemplos de post-entrenamiento como "plantillas cognitivas" que muestran al modelo cómo utilizar su base de conocimiento para resolver tareas de razonamiento complejas. Para facilitar la reproducibilidad y la investigación futura en razonamiento eficiente en datos, lanzamos LIMO como un conjunto completo de código abierto en https://github.com/GAIR-NLP/LIMO.
English
We present a fundamental discovery that challenges our understanding of how
complex reasoning emerges in large language models. While conventional wisdom
suggests that sophisticated reasoning tasks demand extensive training data
(>100,000 examples), we demonstrate that complex mathematical reasoning
abilities can be effectively elicited with surprisingly few examples. Through
comprehensive experiments, our proposed model LIMO demonstrates unprecedented
performance in mathematical reasoning. With merely 817 curated training
samples, LIMO achieves 57.1% accuracy on AIME and 94.8% on MATH, improving from
previous SFT-based models' 6.5% and 59.2% respectively, while only using 1% of
the training data required by previous approaches. LIMO demonstrates
exceptional out-of-distribution generalization, achieving 40.5% absolute
improvement across 10 diverse benchmarks, outperforming models trained on 100x
more data, challenging the notion that SFT leads to memorization rather than
generalization. Based on these results, we propose the Less-Is-More Reasoning
Hypothesis (LIMO Hypothesis): In foundation models where domain knowledge has
been comprehensively encoded during pre-training, sophisticated reasoning
capabilities can emerge through minimal but precisely orchestrated
demonstrations of cognitive processes. This hypothesis posits that the
elicitation threshold for complex reasoning is determined by two key factors:
(1) the completeness of the model's encoded knowledge foundation during
pre-training, and (2) the effectiveness of post-training examples as "cognitive
templates" that show the model how to utilize its knowledge base to solve
complex reasoning tasks. To facilitate reproducibility and future research in
data-efficient reasoning, we release LIMO as a comprehensive open-source suite
at https://github.com/GAIR-NLP/LIMO.Summary
AI-Generated Summary