ChatPaper.aiChatPaper

InfiR: Entwicklung effektiver kleiner Sprachmodelle und multimodaler kleiner Sprachmodelle für das logische Denken

InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning

February 17, 2025
Autoren: Congkai Xie, Shuo Cai, Wenjun Wang, Pengxiang Li, Zhijie Sang, Kejing Yang, Yiming Zhang, Zhen Li, Guanghao Zhu, Zeyu Liu, Yang Yu, Yuhang Liu, Su Lu, Baoyi He, Qi Zhou, Xiaotian Han, Jianbo Yuan, Shengyu Zhang, Fei Wu, Hongxia Yang
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) und multimodale große Sprachmodelle (MLLMs) haben bedeutende Fortschritte in ihren Fähigkeiten zum logischen Schlussfolgern erzielt. Dennoch stehen sie weiterhin vor Herausforderungen wie hohem Rechenaufwand und Datenschutzbedenken. Dieses Papier konzentriert sich auf die Entwicklung effizienter kleiner Sprachmodelle (SLMs) und multimodaler kleiner Sprachmodelle (MSLMs), die wettbewerbsfähige Fähigkeiten zum logischen Schlussfolgern beibehalten. Wir stellen eine neuartige Trainingspipeline vor, die die Fähigkeiten zum logischen Schlussfolgern verbessert und die Bereitstellung auf Edge-Geräten erleichtert, wodurch state-of-the-art Leistung bei minimalen Entwicklungskosten erreicht wird. \InfR~ zielt darauf ab, KI-Systeme voranzubringen, indem die Fähigkeiten zum logischen Schlussfolgern verbessert, die Einführungshürden verringert und Datenschutzbedenken durch kleinere Modellgrößen adressiert werden. Ressourcen sind verfügbar unter https://github.com/Reallm-Labs/InfiR.
English
Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have made significant advancements in reasoning capabilities. However, they still face challenges such as high computational demands and privacy concerns. This paper focuses on developing efficient Small Language Models (SLMs) and Multimodal Small Language Models (MSLMs) that retain competitive reasoning abilities. We introduce a novel training pipeline that enhances reasoning capabilities and facilitates deployment on edge devices, achieving state-of-the-art performance while minimizing development costs. \InfR~ aims to advance AI systems by improving reasoning, reducing adoption barriers, and addressing privacy concerns through smaller model sizes. Resources are available at https://github. com/Reallm-Labs/InfiR.

Summary

AI-Generated Summary

PDF82February 20, 2025