LIMO: Menos es Más para el Razonamiento

Resumen

Presentamos un descubrimiento fundamental que desafía nuestra comprensión de cómo surge el razonamiento complejo en grandes modelos de lenguaje. Mientras la sabiduría convencional sugiere que las tareas de razonamiento sofisticado requieren extensos datos de entrenamiento (>100,000 ejemplos), demostramos que las habilidades de razonamiento matemático complejo pueden ser eficazmente provocadas con sorprendentemente pocos ejemplos. A través de experimentos exhaustivos, nuestro modelo propuesto LIMO demuestra un rendimiento sin precedentes en el razonamiento matemático. Con tan solo 817 ejemplos de entrenamiento seleccionados, LIMO logra una precisión del 57.1% en AIME y del 94.8% en MATH, mejorando respecto a los modelos anteriores basados en SFT que tenían un 6.5% y un 59.2% respectivamente, utilizando solo el 1% de los datos de entrenamiento requeridos por enfoques anteriores. LIMO muestra una generalización excepcional fuera de la distribución, logrando una mejora absoluta del 40.5% en 10 benchmarks diversos, superando a modelos entrenados con 100 veces más datos, desafiando la noción de que SFT conduce a la memorización en lugar de la generalización. Basándonos en estos resultados, proponemos la Hipótesis de Razonamiento Menos es Más (Hipótesis LIMO): En modelos fundamentales donde el conocimiento del dominio ha sido codificado de manera exhaustiva durante el pre-entrenamiento, las capacidades de razonamiento sofisticado pueden surgir a través de demostraciones mínimas pero precisamente orquestadas de procesos cognitivos. Esta hipótesis postula que el umbral de provocación para el razonamiento complejo está determinado por dos factores clave: (1) la completitud de la base de conocimiento codificada del modelo durante el pre-entrenamiento, y (2) la efectividad de los ejemplos de post-entrenamiento como "plantillas cognitivas" que muestran al modelo cómo utilizar su base de conocimiento para resolver tareas de razonamiento complejas. Para facilitar la reproducibilidad y la investigación futura en razonamiento eficiente en datos, lanzamos LIMO como un conjunto completo de código abierto en https://github.com/GAIR-NLP/LIMO.

English

We present a fundamental discovery that challenges our understanding of how complex reasoning emerges in large language models. While conventional wisdom suggests that sophisticated reasoning tasks demand extensive training data (>100,000 examples), we demonstrate that complex mathematical reasoning abilities can be effectively elicited with surprisingly few examples. Through comprehensive experiments, our proposed model LIMO demonstrates unprecedented performance in mathematical reasoning. With merely 817 curated training samples, LIMO achieves 57.1% accuracy on AIME and 94.8% on MATH, improving from previous SFT-based models' 6.5% and 59.2% respectively, while only using 1% of the training data required by previous approaches. LIMO demonstrates exceptional out-of-distribution generalization, achieving 40.5% absolute improvement across 10 diverse benchmarks, outperforming models trained on 100x more data, challenging the notion that SFT leads to memorization rather than generalization. Based on these results, we propose the Less-Is-More Reasoning Hypothesis (LIMO Hypothesis): In foundation models where domain knowledge has been comprehensively encoded during pre-training, sophisticated reasoning capabilities can emerge through minimal but precisely orchestrated demonstrations of cognitive processes. This hypothesis posits that the elicitation threshold for complex reasoning is determined by two key factors: (1) the completeness of the model's encoded knowledge foundation during pre-training, and (2) the effectiveness of post-training examples as "cognitive templates" that show the model how to utilize its knowledge base to solve complex reasoning tasks. To facilitate reproducibility and future research in data-efficient reasoning, we release LIMO as a comprehensive open-source suite at https://github.com/GAIR-NLP/LIMO.

LIMO: Menos es Más para el Razonamiento

LIMO: Less is More for Reasoning

Resumen

Support