InfiR: Creazione di Modelli Linguistici Compatti Efficaci e Modelli Linguistici Compatti Multimodali nel Ragionamento
InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning
February 17, 2025
Autori: Congkai Xie, Shuo Cai, Wenjun Wang, Pengxiang Li, Zhijie Sang, Kejing Yang, Yiming Zhang, Zhen Li, Guanghao Zhu, Zeyu Liu, Yang Yu, Yuhang Liu, Su Lu, Baoyi He, Qi Zhou, Xiaotian Han, Jianbo Yuan, Shengyu Zhang, Fei Wu, Hongxia Yang
cs.AI
Abstract
I Large Language Models (LLM) e i Multimodal Large Language Models (MLLM) hanno compiuto progressi significativi nelle capacità di ragionamento. Tuttavia, continuano a presentare sfide come elevate esigenze computazionali e preoccupazioni relative alla privacy. Questo articolo si concentra sullo sviluppo di efficienti Small Language Models (SLM) e Multimodal Small Language Models (MSLM) che mantengono capacità di ragionamento competitive. Introduciamo una nuova pipeline di addestramento che potenzia le capacità di ragionamento e facilita il deployment su dispositivi edge, raggiungendo prestazioni all'avanguardia riducendo al contempo i costi di sviluppo. \InfR~ mira a far progredire i sistemi di intelligenza artificiale migliorando il ragionamento, riducendo le barriere all'adozione e affrontando le preoccupazioni sulla privacy attraverso dimensioni ridotte dei modelli. Le risorse sono disponibili all'indirizzo https://github.com/Reallm-Labs/InfiR.
English
Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs)
have made significant advancements in reasoning capabilities. However, they
still face challenges such as high computational demands and privacy concerns.
This paper focuses on developing efficient Small Language Models (SLMs) and
Multimodal Small Language Models (MSLMs) that retain competitive reasoning
abilities. We introduce a novel training pipeline that enhances reasoning
capabilities and facilitates deployment on edge devices, achieving
state-of-the-art performance while minimizing development costs. \InfR~ aims to
advance AI systems by improving reasoning, reducing adoption barriers, and
addressing privacy concerns through smaller model sizes. Resources are
available at https://github. com/Reallm-Labs/InfiR.Summary
AI-Generated Summary