Los LLM pueden aprender fácilmente a razonar a partir de demostraciones. ¡La estructura, no el contenido, es lo que importa!
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
February 11, 2025
Autores: Dacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica
cs.AI
Resumen
Los modelos de razonamiento extenso (LRMs) abordan problemas de razonamiento complejos siguiendo largas cadenas de pensamiento (Long CoT) que incorporan reflexión, retroceso y autovalidación. Sin embargo, las técnicas de entrenamiento y los requisitos de datos para inducir Long CoT siguen siendo poco comprendidos. En este trabajo, descubrimos que un modelo de lenguaje extenso (LLM) puede aprender eficazmente el razonamiento Long CoT a través de un ajuste fino supervisado (SFT) eficiente en datos y una adaptación de bajo rango de parámetros (LoRA). Con solo 17k muestras de entrenamiento de larga CoT, el modelo Qwen2.5-32B-Instruct logra mejoras significativas en una amplia gama de pruebas de matemáticas y codificación, incluyendo un 56.7% (+40.0%) en AIME 2024 y un 57.0% (+8.1%) en LiveCodeBench, competitivo con la puntuación del modelo o1-preview propietario de 44.6% y 59.1%. Más importante aún, encontramos que la estructura de Long CoT es crítica para el proceso de aprendizaje, mientras que el contenido de los pasos de razonamiento individuales tiene un impacto mínimo. Las perturbaciones que afectan al contenido, como el entrenamiento en muestras incorrectas o la eliminación de palabras clave de razonamiento, tienen poco impacto en el rendimiento. En contraste, las modificaciones estructurales que interrumpen la coherencia lógica en Long CoT, como mezclar o eliminar pasos de razonamiento, degradan significativamente la precisión. Por ejemplo, un modelo entrenado en muestras de Long CoT con respuestas incorrectas aún logra solo un 3.2% menos de precisión en comparación con el entrenamiento con muestras completamente correctas. Estas percepciones profundizan nuestra comprensión de cómo inducir capacidades de razonamiento en LLMs y resaltan consideraciones clave para entrenar eficientemente la próxima generación de modelos de razonamiento. Este es el artículo académico de nuestro modelo Sky-T1-32B-Preview previamente lanzado. Los códigos están disponibles en https://github.com/NovaSky-AI/SkyThought.
English
Large reasoning models (LRMs) tackle complex reasoning problems by following
long chain-of-thoughts (Long CoT) that incorporate reflection, backtracking,
and self-validation. However, the training techniques and data requirements to
elicit Long CoT remain poorly understood. In this work, we find that a Large
Language model (LLM) can effectively learn Long CoT reasoning through
data-efficient supervised fine-tuning (SFT) and parameter-efficient low-rank
adaptation (LoRA). With just 17k long CoT training samples, the
Qwen2.5-32B-Instruct model achieves significant improvements on a wide range of
math and coding benchmarks, including 56.7% (+40.0%) on AIME 2024 and 57.0%
(+8.1%) on LiveCodeBench, competitive to the proprietary o1-preview model's
score of 44.6% and 59.1%. More importantly, we find that the structure of Long
CoT is critical to the learning process, whereas the content of individual
reasoning steps has minimal impact. Perturbations affecting content, such as
training on incorrect samples or removing reasoning keywords, have little
impact on performance. In contrast, structural modifications that disrupt
logical consistency in the Long CoT, such as shuffling or deleting reasoning
steps, significantly degrade accuracy. For example, a model trained on Long CoT
samples with incorrect answers still achieves only 3.2% lower accuracy compared
to training with fully correct samples. These insights deepen our understanding
of how to elicit reasoning capabilities in LLMs and highlight key
considerations for efficiently training the next generation of reasoning
models. This is the academic paper of our previous released Sky-T1-32B-Preview
model. Codes are available at https://github.com/NovaSky-AI/SkyThought.Summary
AI-Generated Summary