InfiR: Создание эффективных малых языковых моделей и мультимодальных малых языковых моделей для задач рассуждения
InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning
February 17, 2025
Авторы: Congkai Xie, Shuo Cai, Wenjun Wang, Pengxiang Li, Zhijie Sang, Kejing Yang, Yiming Zhang, Zhen Li, Guanghao Zhu, Zeyu Liu, Yang Yu, Yuhang Liu, Su Lu, Baoyi He, Qi Zhou, Xiaotian Han, Jianbo Yuan, Shengyu Zhang, Fei Wu, Hongxia Yang
cs.AI
Аннотация
Крупные языковые модели (LLM) и мультимодальные крупные языковые модели (MLLM) достигли значительного прогресса в способностях к рассуждению. Однако они по-прежнему сталкиваются с такими проблемами, как высокие вычислительные требования и вопросы конфиденциальности. В данной статье основное внимание уделяется разработке эффективных малых языковых моделей (SLM) и мультимодальных малых языковых моделей (MSLM), которые сохраняют конкурентоспособные способности к рассуждению. Мы представляем новый подход к обучению, который улучшает способности к рассуждению и облегчает развертывание на периферийных устройствах, достигая передовых показателей производительности при минимизации затрат на разработку. \InfR~ направлен на развитие систем искусственного интеллекта за счет улучшения способностей к рассуждению, снижения барьеров для внедрения и решения вопросов конфиденциальности благодаря уменьшению размеров моделей. Ресурсы доступны по адресу https://github.com/Reallm-Labs/InfiR.
English
Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs)
have made significant advancements in reasoning capabilities. However, they
still face challenges such as high computational demands and privacy concerns.
This paper focuses on developing efficient Small Language Models (SLMs) and
Multimodal Small Language Models (MSLMs) that retain competitive reasoning
abilities. We introduce a novel training pipeline that enhances reasoning
capabilities and facilitates deployment on edge devices, achieving
state-of-the-art performance while minimizing development costs. \InfR~ aims to
advance AI systems by improving reasoning, reducing adoption barriers, and
addressing privacy concerns through smaller model sizes. Resources are
available at https://github. com/Reallm-Labs/InfiR.Summary
AI-Generated Summary