Малые модели испытывают трудности в обучении на основе сильных рассуждающих систем.
Small Models Struggle to Learn from Strong Reasoners
February 17, 2025
Авторы: Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian, Radha Poovendran
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют выдающиеся результаты в задачах сложного логического рассуждения, и перенос их способностей к рассуждению в меньшие модели показал свою перспективность. Однако мы обнаружили интересное явление, которое назвали Проблемой Обучаемости Малых Моделей: небольшие модели (≤3B параметров) не всегда получают пользу от длинных цепочек рассуждений (CoT) или дистилляции из более крупных моделей. Вместо этого они показывают лучшие результаты, когда дообучаются на более коротких и простых цепочках рассуждений, которые лучше соответствуют их внутренней способности к обучению. Для решения этой проблемы мы предлагаем Mix Distillation — простую, но эффективную стратегию, которая балансирует сложность рассуждений, комбинируя длинные и короткие примеры CoT или рассуждения как из крупных, так и из малых моделей. Наши эксперименты показывают, что Mix Distillation значительно улучшает способность малых моделей к рассуждениям по сравнению с обучением только на одном типе данных. Эти результаты подчеркивают ограничения прямой дистилляции из сильных моделей и важность адаптации сложности рассуждений для эффективного переноса способностей к логическому мышлению.
English
Large language models (LLMs) excel in complex reasoning tasks, and distilling
their reasoning capabilities into smaller models has shown promise. However, we
uncover an interesting phenomenon, which we term the Small Model Learnability
Gap: small models (leq3B parameters) do not consistently benefit from long
chain-of-thought (CoT) reasoning or distillation from larger models. Instead,
they perform better when fine-tuned on shorter, simpler reasoning chains that
better align with their intrinsic learning capacity. To address this, we
propose Mix Distillation, a simple yet effective strategy that balances
reasoning complexity by combining long and short CoT examples or reasoning from
both larger and smaller models. Our experiments demonstrate that Mix
Distillation significantly improves small model reasoning performance compared
to training on either data alone. These findings highlight the limitations of
direct strong model distillation and underscore the importance of adapting
reasoning complexity for effective reasoning capability transfer.Summary
AI-Generated Summary