ChatPaper.aiChatPaper

InfiR: Создание эффективных малых языковых моделей и мультимодальных малых языковых моделей для задач рассуждения

InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning

February 17, 2025
Авторы: Congkai Xie, Shuo Cai, Wenjun Wang, Pengxiang Li, Zhijie Sang, Kejing Yang, Yiming Zhang, Zhen Li, Guanghao Zhu, Zeyu Liu, Yang Yu, Yuhang Liu, Su Lu, Baoyi He, Qi Zhou, Xiaotian Han, Jianbo Yuan, Shengyu Zhang, Fei Wu, Hongxia Yang
cs.AI

Аннотация

Крупные языковые модели (LLM) и мультимодальные крупные языковые модели (MLLM) достигли значительного прогресса в способностях к рассуждению. Однако они по-прежнему сталкиваются с такими проблемами, как высокие вычислительные требования и вопросы конфиденциальности. В данной статье основное внимание уделяется разработке эффективных малых языковых моделей (SLM) и мультимодальных малых языковых моделей (MSLM), которые сохраняют конкурентоспособные способности к рассуждению. Мы представляем новый подход к обучению, который улучшает способности к рассуждению и облегчает развертывание на периферийных устройствах, достигая передовых показателей производительности при минимизации затрат на разработку. \InfR~ направлен на развитие систем искусственного интеллекта за счет улучшения способностей к рассуждению, снижения барьеров для внедрения и решения вопросов конфиденциальности благодаря уменьшению размеров моделей. Ресурсы доступны по адресу https://github.com/Reallm-Labs/InfiR.
English
Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have made significant advancements in reasoning capabilities. However, they still face challenges such as high computational demands and privacy concerns. This paper focuses on developing efficient Small Language Models (SLMs) and Multimodal Small Language Models (MSLMs) that retain competitive reasoning abilities. We introduce a novel training pipeline that enhances reasoning capabilities and facilitates deployment on edge devices, achieving state-of-the-art performance while minimizing development costs. \InfR~ aims to advance AI systems by improving reasoning, reducing adoption barriers, and addressing privacy concerns through smaller model sizes. Resources are available at https://github. com/Reallm-Labs/InfiR.

Summary

AI-Generated Summary

PDF82February 20, 2025