ChatPaper.aiChatPaper

InfiR: Het Ontwikkelen van Effectieve Kleine Taalmodellen en Multimodale Kleine Taalmodellen voor Redeneren

InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning

February 17, 2025
Auteurs: Congkai Xie, Shuo Cai, Wenjun Wang, Pengxiang Li, Zhijie Sang, Kejing Yang, Yiming Zhang, Zhen Li, Guanghao Zhu, Zeyu Liu, Yang Yu, Yuhang Liu, Su Lu, Baoyi He, Qi Zhou, Xiaotian Han, Jianbo Yuan, Shengyu Zhang, Fei Wu, Hongxia Yang
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) en Multimodale Grote Taalmodellen (MLLM's) hebben aanzienlijke vooruitgang geboekt in redeneervaardigheden. Ze kampen echter nog steeds met uitdagingen zoals hoge rekenkundige eisen en privacyzorgen. Dit artikel richt zich op de ontwikkeling van efficiënte Kleine Taalmodellen (SLM's) en Multimodale Kleine Taalmodellen (MSLM's) die competitieve redeneervaardigheden behouden. We introduceren een nieuwe trainingspijplijn die de redeneervaardigheden verbetert en de implementatie op edge-apparaten vergemakkelijkt, waarbij state-of-the-art prestaties worden behaald en de ontwikkelingskosten worden geminimaliseerd. \InfR~ streeft ernaar AI-systemen te verbeteren door de redeneervaardigheden te versterken, adoptiebarrières te verlagen en privacyzorgen aan te pakken door middel van kleinere modelgroottes. Bronnen zijn beschikbaar op https://github.com/Reallm-Labs/InfiR.
English
Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have made significant advancements in reasoning capabilities. However, they still face challenges such as high computational demands and privacy concerns. This paper focuses on developing efficient Small Language Models (SLMs) and Multimodal Small Language Models (MSLMs) that retain competitive reasoning abilities. We introduce a novel training pipeline that enhances reasoning capabilities and facilitates deployment on edge devices, achieving state-of-the-art performance while minimizing development costs. \InfR~ aims to advance AI systems by improving reasoning, reducing adoption barriers, and addressing privacy concerns through smaller model sizes. Resources are available at https://github. com/Reallm-Labs/InfiR.

Summary

AI-Generated Summary

PDF82February 20, 2025