Los modelos pequeños tienen dificultades para aprender de razonadores potentes.
Small Models Struggle to Learn from Strong Reasoners
February 17, 2025
Autores: Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian, Radha Poovendran
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) sobresalen en tareas de razonamiento complejo, y la destilación de sus capacidades de razonamiento en modelos más pequeños ha mostrado resultados prometedores. Sin embargo, descubrimos un fenómeno interesante, al que denominamos la Brecha de Aprendizaje en Modelos Pequeños: los modelos pequeños (≤3B parámetros) no se benefician consistentemente del razonamiento de cadena de pensamiento (CoT) extenso ni de la destilación de modelos más grandes. En su lugar, obtienen un mejor rendimiento cuando se ajustan con cadenas de razonamiento más cortas y simples que se alinean mejor con su capacidad de aprendizaje intrínseca. Para abordar esto, proponemos la Destilación Mixta, una estrategia simple pero efectiva que equilibra la complejidad del razonamiento al combinar ejemplos de CoT largos y cortos o razonamientos provenientes tanto de modelos grandes como pequeños. Nuestros experimentos demuestran que la Destilación Mixta mejora significativamente el rendimiento de razonamiento de los modelos pequeños en comparación con el entrenamiento utilizando solo uno de los tipos de datos. Estos hallazgos resaltan las limitaciones de la destilación directa de modelos fuertes y subrayan la importancia de adaptar la complejidad del razonamiento para una transferencia efectiva de capacidades de razonamiento.
English
Large language models (LLMs) excel in complex reasoning tasks, and distilling
their reasoning capabilities into smaller models has shown promise. However, we
uncover an interesting phenomenon, which we term the Small Model Learnability
Gap: small models (leq3B parameters) do not consistently benefit from long
chain-of-thought (CoT) reasoning or distillation from larger models. Instead,
they perform better when fine-tuned on shorter, simpler reasoning chains that
better align with their intrinsic learning capacity. To address this, we
propose Mix Distillation, a simple yet effective strategy that balances
reasoning complexity by combining long and short CoT examples or reasoning from
both larger and smaller models. Our experiments demonstrate that Mix
Distillation significantly improves small model reasoning performance compared
to training on either data alone. These findings highlight the limitations of
direct strong model distillation and underscore the importance of adapting
reasoning complexity for effective reasoning capability transfer.Summary
AI-Generated Summary