InfiR: Создание эффективных малых языковых моделей и мультимодальных малых языковых моделей для задач рассуждения

Аннотация

Крупные языковые модели (LLM) и мультимодальные крупные языковые модели (MLLM) достигли значительного прогресса в способностях к рассуждению. Однако они по-прежнему сталкиваются с такими проблемами, как высокие вычислительные требования и вопросы конфиденциальности. В данной статье основное внимание уделяется разработке эффективных малых языковых моделей (SLM) и мультимодальных малых языковых моделей (MSLM), которые сохраняют конкурентоспособные способности к рассуждению. Мы представляем новый подход к обучению, который улучшает способности к рассуждению и облегчает развертывание на периферийных устройствах, достигая передовых показателей производительности при минимизации затрат на разработку. \InfR~ направлен на развитие систем искусственного интеллекта за счет улучшения способностей к рассуждению, снижения барьеров для внедрения и решения вопросов конфиденциальности благодаря уменьшению размеров моделей. Ресурсы доступны по адресу https://github.com/Reallm-Labs/InfiR.

English

Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have made significant advancements in reasoning capabilities. However, they still face challenges such as high computational demands and privacy concerns. This paper focuses on developing efficient Small Language Models (SLMs) and Multimodal Small Language Models (MSLMs) that retain competitive reasoning abilities. We introduce a novel training pipeline that enhances reasoning capabilities and facilitates deployment on edge devices, achieving state-of-the-art performance while minimizing development costs. \InfR~ aims to advance AI systems by improving reasoning, reducing adoption barriers, and addressing privacy concerns through smaller model sizes. Resources are available at https://github. com/Reallm-Labs/InfiR.

InfiR: Создание эффективных малых языковых моделей и мультимодальных малых языковых моделей для задач рассуждения

InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning

Аннотация

Support