ChatPaper.aiChatPaper

InfiR : Conception de modèles de langage compacts efficaces et de modèles de langage compacts multimodaux pour le raisonnement

InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning

February 17, 2025
Auteurs: Congkai Xie, Shuo Cai, Wenjun Wang, Pengxiang Li, Zhijie Sang, Kejing Yang, Yiming Zhang, Zhen Li, Guanghao Zhu, Zeyu Liu, Yang Yu, Yuhang Liu, Su Lu, Baoyi He, Qi Zhou, Xiaotian Han, Jianbo Yuan, Shengyu Zhang, Fei Wu, Hongxia Yang
cs.AI

Résumé

Les grands modèles de langage (LLMs) et les grands modèles de langage multimodaux (MLLMs) ont réalisé des avancées significatives en matière de capacités de raisonnement. Cependant, ils continuent de rencontrer des défis tels que des exigences computationnelles élevées et des préoccupations en matière de confidentialité. Cet article se concentre sur le développement de petits modèles de langage (SLMs) et de petits modèles de langage multimodaux (MSLMs) efficaces, tout en conservant des capacités de raisonnement compétitives. Nous introduisons un nouveau pipeline d'entraînement qui améliore les capacités de raisonnement et facilite le déploiement sur des appareils périphériques, atteignant des performances de pointe tout en minimisant les coûts de développement. \InfR~ vise à faire progresser les systèmes d'IA en améliorant le raisonnement, en réduisant les barrières à l'adoption et en abordant les préoccupations de confidentialité grâce à des tailles de modèles plus réduites. Les ressources sont disponibles à l'adresse https://github.com/Reallm-Labs/InfiR.
English
Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have made significant advancements in reasoning capabilities. However, they still face challenges such as high computational demands and privacy concerns. This paper focuses on developing efficient Small Language Models (SLMs) and Multimodal Small Language Models (MSLMs) that retain competitive reasoning abilities. We introduce a novel training pipeline that enhances reasoning capabilities and facilitates deployment on edge devices, achieving state-of-the-art performance while minimizing development costs. \InfR~ aims to advance AI systems by improving reasoning, reducing adoption barriers, and addressing privacy concerns through smaller model sizes. Resources are available at https://github. com/Reallm-Labs/InfiR.

Summary

AI-Generated Summary

PDF82February 20, 2025