InfiR: Creación de Modelos de Lenguaje Pequeños Efectivos y Modelos de Lenguaje Pequeños Multimodales en Razonamiento
InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning
February 17, 2025
Autores: Congkai Xie, Shuo Cai, Wenjun Wang, Pengxiang Li, Zhijie Sang, Kejing Yang, Yiming Zhang, Zhen Li, Guanghao Zhu, Zeyu Liu, Yang Yu, Yuhang Liu, Su Lu, Baoyi He, Qi Zhou, Xiaotian Han, Jianbo Yuan, Shengyu Zhang, Fei Wu, Hongxia Yang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs) han logrado avances significativos en capacidades de razonamiento. Sin embargo, aún enfrentan desafíos como altas demandas computacionales y preocupaciones de privacidad. Este artículo se centra en el desarrollo de Modelos de Lenguaje Pequeños (SLMs) y Modelos de Lenguaje Multimodal Pequeños (MSLMs) que mantienen capacidades de razonamiento competitivas. Introducimos una novedosa pipeline de entrenamiento que mejora las capacidades de razonamiento y facilita la implementación en dispositivos de borde, logrando un rendimiento de vanguardia mientras se minimizan los costos de desarrollo. \InfR~ tiene como objetivo avanzar los sistemas de IA mejorando el razonamiento, reduciendo las barreras de adopción y abordando las preocupaciones de privacidad a través de tamaños de modelo más pequeños. Los recursos están disponibles en https://github.com/Reallm-Labs/InfiR.
English
Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs)
have made significant advancements in reasoning capabilities. However, they
still face challenges such as high computational demands and privacy concerns.
This paper focuses on developing efficient Small Language Models (SLMs) and
Multimodal Small Language Models (MSLMs) that retain competitive reasoning
abilities. We introduce a novel training pipeline that enhances reasoning
capabilities and facilitates deployment on edge devices, achieving
state-of-the-art performance while minimizing development costs. \InfR~ aims to
advance AI systems by improving reasoning, reducing adoption barriers, and
addressing privacy concerns through smaller model sizes. Resources are
available at https://github. com/Reallm-Labs/InfiR.Summary
AI-Generated Summary